Grok 3 및 GPT-4O는 여러 벤치 마크에서 테스트되어 다양한 영역에서 성능을 평가했습니다.
- 수학 : Grok 3은 2025 American Invitational Mathematics Examination (AIME)에서 93.3%의 점수를 달성했으며,이 분야에서 GPT-4O의 성능은 사용 가능한 데이터에서 명시 적으로 강조되지 않습니다. 그러나 Aime 2024에서 Grok 3의 성능은 수학 관련 작업에서 GPT-4O의 일반적인 성능보다 상당히 높았다 [1] [3] [5].
-과학 및 추론 : Grok 3은 GPQA (대학원 수준의 전문가 추론) 테스트에서 84.6%를 기록하여 대학원 수준의 과학 지식의 강점을 보여줍니다. 유사한 추론 작업에서 GPT-4O의 성과는 일반적으로 Grok 3 [1] [3] [6]에 비해 낮습니다.
- 코딩 : Grok 3은 LiveCodeBench에서 79.4%를 달성하여 코드 생성 작업에서 GPT-4O를 능가했습니다. Livecodebench에 대한 GPT-4O의 특정 점수는 상세하지 않지만 Grok 3은 일반적으로 코딩 벤치 마크에서 탁월합니다 [1] [3] [5].
- 일반 지식 : Grok 3은 MMLU-PRO에서 79.9%를 기록했으며, 이는 여러 과목에서 광범위한 지식을 테스트했습니다. GPT-4O는 동일한 벤치 마크에서 72.6%를 기록하여 Grok 3의 일반적인 지식 작업에서 성능이 강한 것으로 나타났습니다 [3].
- 멀티 모달 이해 : Grok 3은 MMMU (Multimodal Multitask 모델 이해)와 같은 멀티 모달 작업에서 기능을 보여 주었지만,이 영역에서 GPT-4O와 구체적인 비교는 제한적입니다 [1] [3].
전반적으로, Grok 3은 수학, 과학 및 코딩과 같은 전문화 된 작업에서 GPT-4O를 능가하는 경향이있는 반면, GPT-4O는 일반적인 목적 응용 분야에서보다 다재다능 할 수 있습니다 [2] [5] [6].
인용 :[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-up/news/elon-musk-unveils-grok-3-how-it-performs-against-openais-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vs-catgpt-vs-deepseek-vs-claude-vs-gemini-whith-ias-is-best-in-febrube-2025/
[7] https://lifehacker.com/tech/i-tested-grok-3-and-s-not-worth-the-price-shike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt