„Grok 3 vs GPT-4o“: etaloninis našumo palyginimas matematikos, mokslo ir kodavimo srityse

Kokie konkretūs etalonai buvo išbandyti 3 ir GPT-4o

„Grok 3“ ir „GPT-4o“ buvo išbandytos keliuose etalonuose, siekiant įvertinti jų veikimą įvairiose srityse:

- Matematika: „Grok 3“ pasiekė 93,3% balą per 2025 m. Amerikos kvietimo matematikos egzaminą (AIME), o GPT-4O pasirodymas šioje srityje nėra aiškiai pabrėžiamas turimuose duomenyse. Tačiau „Grok 3“ pasirodymas „Aime 2024“ buvo pastebėtas kaip žymiai didesnis nei GPT-4o bendras atlikimas atliekant matematiką susijusias užduotis [1] [3] [5].

-Mokslas ir samprotavimai: GPQA (absolventų lygio ekspertų samprotavimo) testas surinko 84,6%, parodydamas savo stiprumą absolventų mokslo žiniose. GPT-4O atlikimas panašiose samprotavimo užduotyse paprastai yra mažesnis, palyginti su GROK 3 [1] [3] [6].

- Kodavimas: „Grok 3“ pasiekė 79,4% „LiveCodeBench“, pralenkdamas GPT-4o kodų generavimo užduotis. Konkretus GPT-4o balas „LiveCodeBench“ nėra detalus, tačiau „Grok 3“ paprastai išsiskiria koduojančiais etalonais [1] [3] [5].

- Bendrosios žinios: „Grok 3“ surinko 79,9% „MMLU-Pro“, kuris išbando plačias žinias įvairiuose dalykuose. Tame pačiame etalone GPT-4o surinko 72,6%, tai rodo stipresnį „Grok 3“ rezultatą bendrųjų žinių užduotyse [3].

- Multimodalinis supratimas: „Grok 3“ parodė daugiarodalinių užduočių, tokių kaip MMMU (multimodalinis daugialypis modelio supratimas), galimybės), nors specifiniai palyginimai su GPT-4o šioje srityje yra riboti [1] [3].

Apskritai, „GROK 3“ linkęs pralenkti GPT-4O atlikdamas specializuotas užduotis, tokias kaip matematika, mokslas ir kodavimas, o GPT-4o gali būti universalesnės bendrosios paskirties programose [2] [5] [6].

Citatos:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparion
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-ku-uut/news/elon-Musk-unveils-grok-3-how-it-perform-against-openais-gpt-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparion
[6] https://felloai.com/2025/02/grok-3-vs-chatgpt-vs-deepseek-vs-caude-vs-gemini-which-ai-is-best in-february-2025/
[7] https://lifehacker.com/tech/iTent-grok-3-and-its-not-worth-the-price-Hike
[8] https://writesonic.com/blog/grok-3-vs-chatGpt