Grok 3 против GPT-4O: сравнение эффективности эталона по математике, науке и кодированию

На каких конкретных тестах Grok 3 и GPT-4O были проверены на

GROK 3 и GPT-4O были протестированы на нескольких тестах, чтобы оценить их производительность в различных областях:

- Математика: GROK 3 достиг 93,3% на экзамене американской математики American приглашения 2025 года (AIME), в то время как производительность GPT-4O в этой области явно не подчеркивается в доступных данных. Тем не менее, производительность Grok 3 в AIME 2024 была отмечена как значительно выше, чем общая производительность GPT-4O в задачах, связанных с математикой [1] [3] [5].

-Наука и рассуждения: Grok 3 набрал 84,6% на тесте GPQA (экспертные рассуждения на уровне выпускников), демонстрируя свои силы в научных знаниях на уровне выпускника. Производительность GPT-4O в аналогичных задачах, как правило, ниже по сравнению с GROK 3 [1] [3] [6].

- Кодирование: GROK 3 достиг 79,4% на LiveCodeBench, опередив GPT-4O в задачах генерации кода. Конкретный балл GPT-4O на LiveCodeBench не подробен, но Grok 3 обычно превосходит в кодирующих критериях [1] [3] [5].

- Общие знания: GROK 3 набрал 79,9% на MMLU-PRO, который проверяет широкие знания по нескольким предметам. GPT-4O набрал 72,6% по тому же эталону, что указывает на более высокую производительность Grok 3 в общих задачах знаний [3].

- Мультимодальное понимание: GROK 3 продемонстрировал возможности в мультимодальных задачах, таких как MMMU (MultiModal Muditask Model Inflection), хотя конкретные сравнения с GPT-4O в этой области ограничены [1] [3].

В целом, Grok 3 имеет тенденцию превосходить GPT-4O в специализированных задачах, таких как математика, наука и кодирование, в то время как GPT-4O может быть более универсальным в приложениях общего назначения [2] [5] [6].

Цитаты:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-up/news/elon-musk-unveils-grok-3-how-it-performs-against-openais-gpt-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-genchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vs-chatgpt-vs-deepseek-vs-claude-vs-gemini-wich-ai-is-best-in-february-2025/
[7] https://lifehacker.com/tech/i-tested-grok-3-and-it-tot-worth-the-price-hike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt