Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Grok 3 ve GPT-4O hangi belirli kriterler üzerinde test edildi


Grok 3 ve GPT-4O hangi belirli kriterler üzerinde test edildi


GROK 3 ve GPT-4O, performanslarını çeşitli alanlarda değerlendirmek için çeşitli kriterlerde test edilmiştir:

- Matematik: GROK 3, 2025 Amerikan Invitational Matematik Sınavı'nda (AIME)% 93.3 puan elde ederken, GPT-4O'nun bu alandaki performansı mevcut verilerde açıkça vurgulanmamıştır. Bununla birlikte, GROK 3'ün AIME 2024'teki performansı, GPT-4O'nun matematikle ilgili görevlerdeki genel performansından önemli ölçüde daha yüksek olduğu kaydedildi [1] [3] [5].

-Bilim ve Akıl Yürütme: GROK 3, GPQA (Lisansüstü Seviye Uzman Akıl Yürütme) testinde% 84.6 puan aldı ve lisansüstü bilim bilgisinde gücünü sergiledi. GPT-4O'nun benzer akıl yürütme görevlerindeki performansı genellikle GROK 3 [1] [3] [6] ile karşılaştırıldığında daha düşüktür.

- Kodlama: GROK 3, LiveCodeBench'te% 79.4'e ulaştı ve kod oluşturma görevlerinde GPT-4O'dan daha iyi performans gösterdi. GPT-4O'nun LiveCodeBench'teki spesifik puanı ayrıntılı değildir, ancak GROK 3 genellikle kodlama ölçütlerinde mükemmeldir [1] [3] [5].

- Genel Bilgi: GROK 3, MMLU-Pro'da% 79,9 puan aldı ve bu da birden fazla konuda geniş bilgiyi test etti. GPT-4O, aynı ölçütte% 72.6 puan aldı ve GROK 3'ün genel bilgi görevlerindeki daha güçlü performansını gösterdi [3].

- Multimodal anlayış: GROK 3, MMMU (multimodal çoklu görevli model anlayışı) gibi multimodal görevlerde yetenekleri gösterdi, ancak bu alandaki GPT-4O ile spesifik karşılaştırmalar sınırlıdır [1] [3].

Genel olarak, GROK 3, matematik, bilim ve kodlama gibi özel görevlerde GPT-4O'dan daha iyi performans gösterirken, GPT-4O genel amaçlı uygulamalarda daha çok yönlü olabilir [2] [5] [6].

Alıntılar:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-up/news/elon-musk-unveils-3-how-it-porforms-against-apenais-gpt-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vs-chatgpt-vs-depseek-vs-claude-vs-gemini-which-ai-la-best-in-febrily-2025/
[7] https://lifehacker.com/tech/i-tested-gok-3-and-itt-not-worth-the-price-hike
[8] https://writonic.com/blog/grok-3-vs-chatgpt