Grok 3 vs GPT-4O: Comparaison des performances de référence en mathématiques, sciences et codage

Sur quels benchmarks spécifiques ont été testés sur Grok 3 et GPT-4O

Grok 3 et GPT-4O ont été testés sur plusieurs repères pour évaluer leurs performances dans divers domaines:

- Mathématiques: Grok 3 a obtenu un score de 93,3% sur l'examen de mathématiques de l'invitation américain 2025 (AIME), tandis que les performances de GPT-4O dans ce domaine ne sont pas explicitement mises en évidence dans les données disponibles. Cependant, les performances de Grok 3 dans l'AIME 2024 ont été considérées comme significativement plus élevées que les performances générales de GPT-4O dans les tâches liées aux mathématiques [1] [3] [5].

- Science et raisonnement: Grok 3 a marqué 84,6% sur le test du GPQA (raisonnement d'experts de niveau supérieur), présentant sa force dans les connaissances scientifiques au niveau des diplômés. Les performances de GPT-4O dans des tâches de raisonnement similaires sont généralement plus faibles par rapport à Grok 3 [1] [3] [6].

- Codage: Grok 3 a atteint 79,4% sur le livecodebench, surpassant le GPT-4O dans les tâches de génération de code. Le score spécifique de GPT-4O sur LivecodeBench n'est pas détaillé, mais Grok 3 excelle généralement dans les repères de codage [1] [3] [5].

- Connaissances générales: Grok 3 a marqué 79,9% sur le MMLU-Pro, qui teste des connaissances générales sur plusieurs sujets. GPT-4O a marqué 72,6% sur la même référence, indiquant les performances plus fortes de Grok 3 dans les tâches de connaissances générales [3].

- Compréhension multimodale: Grok 3 a démontré des capacités dans des tâches multimodales comme MMMU (compréhension multimodale du modèle multitâche), bien que des comparaisons spécifiques avec GPT-4O dans ce domaine soient limitées [1] [3].

Dans l'ensemble, Grok 3 a tendance à surpasser le GPT-4O dans des tâches spécialisées telles que les mathématiques, les sciences et le codage, tandis que le GPT-4O pourrait être plus polyvalent dans les applications à usage général [2] [5] [6].

Citations:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-cocomparon
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-fy/news/elon-musk-unveils-grok-3-how-it-performs-against-openais-gpt-4o-deek
[5] https://www.heliconcone.ai/blog/grok-3-benchmark-Combarison
[6] https://felloai.com/2025/02/grok-3-vs-chatgpt-vs-deepseek-vs-claude-vs-gemini-Which-iis-best-in--february-2025/
[7] https://lifehacker.com/tech/i-tetested-grok-3-and-its-not-worth-the-price-hike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt