Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Ce referințe specifice au fost testate Grok 3 și GPT-4O


Ce referințe specifice au fost testate Grok 3 și GPT-4O


Grok 3 și GPT-4O au fost testate pe mai multe repere pentru a evalua performanța lor pe diverse domenii:

- Matematică: Grok 3 a obținut un scor de 93,3% la examenul de matematică invitațională americană 2025 (AIME), în timp ce performanța GPT-4O în acest domeniu nu este evidențiată în mod explicit în datele disponibile. Cu toate acestea, performanța Grok 3 în AIME 2024 a fost remarcată la fel de mult mai mare decât performanța generală a GPT-4O în sarcinile legate de matematică [1] [3] [5].

-Știință și raționament: Grok 3 a obținut 84,6% la testul GPQA (raționament expert la nivel absolvent), prezentându-și puterea în cunoștințele științifice la nivel de absolvenți. Performanța GPT-4O în sarcini de raționament similare este în general mai mică în comparație cu Grok 3 [1] [3] [6].

- Codificare: Grok 3 a obținut 79,4% pe liveCodebench, depășind GPT-4O în sarcinile de generare a codurilor. Scorul specific GPT-4O pe LiveCodeBench nu este detaliat, dar Grok 3 excelează în general în codificarea de referință [1] [3] [5].

- Cunoaștere generală: Grok 3 a obținut 79,9% pe MMLU-Pro, care testează cunoștințe largi pe mai multe subiecte. GPT-4O a obținut 72,6% pe același referință, ceea ce indică performanța mai puternică a lui Grok 3 în sarcinile generale de cunoștințe [3].

- Înțelegere multimodală: GROK 3 Capabilități demonstrate în sarcini multimodale precum MMMU (înțelegerea modelului multitask multimodal), deși comparațiile specifice cu GPT-4O în acest domeniu sunt limitate [1] [3].

În general, Grok 3 tinde să depășească GPT-4O în sarcini specializate, cum ar fi matematica, știința și codificarea, în timp ce GPT-4O ar putea fi mai versatil în aplicații cu scop general [2] [5] [6].

Citări:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-p
[5] https://www.helicone.ai/blog/grok-3-genchmark-comparison
]
[7] https://lifehacker.com/tech/i-tested-grok-3-and-its-not-worth-the-price-hike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt