Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Op welke specifieke benchmarks zijn GROK 3 en GPT-4O getest


Op welke specifieke benchmarks zijn GROK 3 en GPT-4O getest


GROK 3 en GPT-4O zijn getest op verschillende benchmarks om hun prestaties in verschillende domeinen te evalueren:

- Wiskunde: GROK 3 behaalde een score van 93,3% op het Amerikaanse Invitational Mathematics Examination uit 2025 (AIME), terwijl de prestaties van GPT-4O op dit gebied niet expliciet worden benadrukt in de beschikbare gegevens. De prestaties van GROK 3 in de AIME 2024 werden echter opgemerkt als aanzienlijk hoger dan de algemene prestaties van GPT-4O in wiskunde-gerelateerde taken [1] [3] [5].

-Wetenschap en redeneren: GROK 3 scoorde 84,6% op de GPQA-test (Graduate-niveau redenering), met de kracht in wetenschapskennis op het graduate-niveau. De prestaties van GPT-4O bij vergelijkbare redeneringstaken zijn over het algemeen lager in vergelijking met GROK 3 [1] [3] [6].

- Codering: GROK 3 bereikte 79,4% op de LiveCodebench, beter dan GPT-4O in code-generatietaken. De specifieke score van GPT-4O op LiveCodebench is niet gedetailleerd, maar GROK 3 blinkt over het algemeen uit in coderende benchmarks [1] [3] [5].

- Algemene kennis: GROK 3 scoorde 79,9% op de MMLU-Pro, die brede kennis test bij meerdere onderwerpen. GPT-4O scoorde 72,6% op dezelfde benchmark, wat wijst op de sterkere prestaties van GROK 3 in algemene kennistaken [3].

- Multimodaal begrip: GROK 3 demonstreerde mogelijkheden in multimodale taken zoals MMMU (Multimodal Multitask Model-begrip), hoewel specifieke vergelijkingen met GPT-4O in dit gebied beperkt zijn [1] [3].

Over het algemeen heeft GROK 3 de neiging om GPT-4O beter te maken met gespecialiseerde taken zoals wiskunde, wetenschap en codering, terwijl GPT-4O misschien veelzijdiger is in toepassingen in het algemeen [2] [5] [6].

Citaten:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-combination
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-up/news/elon-musk-unveils-grok-3-how-it-performs-against-openais-gpt-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vs-chatgpt-vs-deepseek-vs-claude-vs-gemini-which-ai-is-is-d-in-february-2025/
[7] https://lifehacker.com/tech/i-tested-grok-3-and-its-not-worth-the-the-hike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt