GROK 3 gegen GPT-4O: Benchmark-Leistungsvergleich in Mathematik, Wissenschaft und Codierung

Auf welchen spezifischen Benchmarks wurden GROK 3 und GPT-4O getestet

GROK 3 und GPT-4O wurden an mehreren Benchmarks getestet, um ihre Leistung in verschiedenen Bereichen zu bewerten:

- Mathematik: GROK 3 erzielte eine Punktzahl von 93,3% für die American Invitational Mathematics Examination (AIMe) 2025, während die Leistung von GPT-4O in diesem Bereich in den verfügbaren Daten nicht ausdrücklich hervorgehoben wird. Die Leistung von GROK 3 im Aime 2024 wurde jedoch als signifikant höher als die allgemeine Leistung von GPT-4O bei mathematischen Aufgaben [1] [3] [5].

. Die Leistung von GPT-4O bei ähnlichen Argumentationsaufgaben ist im Allgemeinen niedriger als bei GROK 3 [1] [3] [6].

- Codierung: GROK 3 erreichte 79,4% auf der LivecodeBench und übertrifft GPT-4O bei Codegenerierungsaufgaben. Die spezifische Punktzahl von GPT-4O auf LivecodeBench ist nicht detailliert, aber GROK 3 zeichnet sich im Allgemeinen in der Codierung von Benchmarks aus [1] [3] [5].

- Allgemeines Wissen: GROK 3 erzielte 79,9% auf dem MMLU-PRO, das breites Wissen über mehrere Probanden hinweg testet. GPT-4O erzielte 72,6% auf demselben Benchmark, was auf die stärkere Leistung von GROK 3 bei allgemeinen Wissensaufgaben hinweist [3].

- Multimodales Verständnis: GROK 3 zeigte Fähigkeiten in multimodalen Aufgaben wie MMMU (multimodales Multitask-Modellverständnis), obwohl spezifische Vergleiche mit GPT-4O in diesem Bereich begrenzt sind [1] [3].

Insgesamt übertrifft GROK 3 GPT-4O in speziellen Aufgaben wie Mathematik, Naturwissenschaften und Codierung, während GPT-4O bei allgemeinen Anwendungen vielseitiger sein könnte [2] [5] [6].

Zitate:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www-
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vss-chatgpt-vs-deepseek-vs-claude-vs-gemini-which-i-is-best-in-Februar-2025/2025/
[7] https://lifeehacker.com/tech/i-tested-grok-3-and-it-not-worth-the-price-hike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt