Grok 3 dan GPT-4O telah diuji pada beberapa tolok ukur untuk mengevaluasi kinerja mereka di berbagai domain:
- Matematika: Grok 3 mencapai skor 93,3% pada 2025 American Invitational Mathematics Exect (AIME), sedangkan kinerja GPT-4O di bidang ini tidak secara eksplisit disorot dalam data yang tersedia. Namun, kinerja Grok 3 di AIME 2024 tercatat secara signifikan lebih tinggi dari kinerja umum GPT-4O dalam tugas terkait matematika [1] [3] [5].
-Sains dan penalaran: Grok 3 mencetak 84,6% pada tes GPQA (penalaran ahli tingkat pascasarjana), menunjukkan kekuatannya dalam pengetahuan sains tingkat pascasarjana. Kinerja GPT-4O dalam tugas penalaran yang sama umumnya lebih rendah dibandingkan dengan Grok 3 [1] [3] [6].
- Coding: Grok 3 mencapai 79,4% pada liveCodebench, mengungguli GPT-4O dalam tugas pembuatan kode. Skor spesifik GPT-4O pada LiveCodebench tidak terperinci, tetapi Grok 3 umumnya unggul dalam pengkodean tolok ukur [1] [3] [5].
- Pengetahuan Umum: Grok 3 mencetak 79,9% pada MMLU-Pro, yang menguji pengetahuan luas di berbagai subjek. GPT-4O mencetak 72,6% pada tolok ukur yang sama, menunjukkan kinerja Grok 3 yang lebih kuat dalam tugas-tugas pengetahuan umum [3].
- Pemahaman multimodal: Grok 3 menunjukkan kemampuan dalam tugas multimodal seperti MMMU (pemahaman model multimodal multitask), meskipun perbandingan spesifik dengan GPT-4O di bidang ini terbatas [1] [3].
Secara keseluruhan, Grok 3 cenderung mengungguli GPT-4O dalam tugas-tugas khusus seperti matematika, sains, dan pengkodean, sementara GPT-4O mungkin lebih fleksibel dalam aplikasi tujuan umum [2] [5] [6].
Kutipan:[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-v/news/elon-musk-uveils-grok-3-how-it-performs-against-openais-gpt-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vs-catgpt-vs-deepseek-vs-claude-vs-gemini-which-ai-is-best-in-februy-2025/
[7] https://lifehacker.com/tech/i-tested-grok-3-and-its-not-worth-the-price-hike
[8] https://writesonic.com/blog/grok-3-vs-catgpt