Grok 3 та GPT-4o були протестовані на декількох орієнтирах для оцінки їх ефективності в різних областях:
- Математика: Grok 3 досяг оцінки 93,3% на американській експертизі з математики American Invitational Mathematics (AIME), тоді як продуктивність GPT-4O в цій галузі явно не виділяється у наявних даних. Однак виступ Грока 3 в AIME 2024 був відзначений значно вищим, ніж загальне виконання GPT-4O у завданнях, пов'язаних з математикою [1] [3] [5].
-Наука та міркування: Grok 3 набрав 84,6% на тест GPQA (експерт з експертів на рівні випускників), демонструючи свою силу в наукових знаннях на рівні випускників. Продуктивність GPT-4O в подібних завданнях міркувань, як правило, нижча порівняно з Grok 3 [1] [3] [6].
- Кодування: Grok 3 досяг 79,4% на LiveCodeBench, перевершивши GPT-4O у завданнях генерації коду. Специфічний показник GPT-4O на LiveCodeBench не детально описаний, але Grok 3, як правило, перемагає в кодувальних орієнтирах [1] [3] [5].
- Загальні знання: Grok 3 набрав 79,9% на MMLU-Pro, який тестує широкі знання з різних предметів. GPT-4O набрав 72,6% на той самий орієнтир, що вказує на більш сильну ефективність Grok 3 у загальних завданнях знань [3].
- Мультимодальне розуміння: GROK 3 продемонстрував можливості в мультимодальних завданнях, таких як MMMU (мультимодальна багатозадачна модель розуміння), хоча конкретні порівняння з GPT-4O в цій області обмежені [1] [3].
Загалом, Grok 3 має тенденцію перевершити GPT-4O у спеціалізованих завдань, таких як математика, наука та кодування, тоді як GPT-4O може бути більш універсальним у програмах загального призначення [2] [5] [6].
Цитати:[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/startup/news/elon-musk-unveils-grok-3-how-it-performs-against-openais-gpt-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vs-chatgpt-vs-deepseek-vs-claude-vs-gemini-which-ai-is-best-in-february-2025/
[7] https://lifehacker.com/tech/i-tested-grok-3-and-its-not-worth-the-price-hike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt