GROK 3 og GPT-4O er testet på flere benchmarks for å evaluere ytelsen deres på tvers av forskjellige domener:
- Matematikk: GROK 3 oppnådde en poengsum på 93,3% på 2025 American Invitational Mathematics Examination (AIME), mens GPT-4Os ytelse på dette området ikke eksplisitt blir fremhevet i tilgjengelige data. Imidlertid ble GROK 3s ytelse i AIME 2024 notert som betydelig høyere enn GPT-4Os generelle ytelse i matematikkrelaterte oppgaver [1] [3] [5].
-Vitenskap og resonnement: GROK 3 scoret 84,6% på GPQA (utdannet ekspert resonnement) -test, og viste sin styrke i vitenskapskunnskap på graden. GPT-4Os ytelse i lignende resonnementoppgaver er generelt lavere sammenlignet med GROK 3 [1] [3] [6].
- Koding: GROK 3 oppnådde 79,4% på LiveCodeBench, og overgikk GPT-4O i kodeproduksjonsoppgaver. GPT-4Os spesifikke poengsum på LiveCodeBench er ikke detaljert, men GROK 3 utmerker seg generelt i kodende benchmarks [1] [3] [5].
- Generell kunnskap: GROK 3 scoret 79,9% på MMLU-Pro, som tester bred kunnskap på tvers av flere fag. GPT-4O scoret 72,6% på samme målestokk, noe som indikerte GROK 3s sterkere ytelse i generelle kunnskapsoppgaver [3].
- Multimodal forståelse: GROK 3 Demonstrerte evner i multimodale oppgaver som MMMU (multimodal multitask-modellforståelse), men spesifikke sammenligninger med GPT-4O i dette området er begrenset [1] [3].
Totalt sett har GROK 3 en tendens til å utkonkurrere GPT-4O i spesialiserte oppgaver som matematikk, vitenskap og koding, mens GPT-4O kan være mer allsidige i generelle applikasjoner [2] [5] [6].
Sitasjoner:[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-up/news/elon-musk-unveils-grok-3-how-it-performs-rewainst-openais-gpt-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vs-chatgpt-vs-depseek-vs-claude-vs-gemini-which-ai-is-best-in-februar-2025/
[7] https://lifehacker.com/tech/i-tested-grok-3-and-its-not-worth-the-Price-Hike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt