Grok 3 ja GPT-4O on testattu useilla vertailuarvoilla niiden suorituskyvyn arvioimiseksi eri verkkotunnuksilla:
- Matematiikka: GROK 3 saavutti pisteet 93,3% 2025 American Invitational Mathematics -tutkimuksessa (AIME), kun taas GPT-4O: n suorituskykyä tällä alueella ei ole nimenomaisesti korostettu käytettävissä olevissa tiedoissa. Grok 3: n suorituskyky AIME 2024: ssä todettiin kuitenkin olevan huomattavasti korkeampi kuin GPT-4O: n yleinen suorituskyky matematiikkaan liittyvissä tehtävissä [1] [3] [5].
-Tiede ja päättely: Grok 3 sai 84,6% GPQA: n (tutkinnon suorittaneiden asiantuntijoiden päättely) testissä, joka esitteli sen vahvuutta jatkotason tiedetiedoissa. GPT-4O: n suorituskyky samanlaisissa päättelytehtävissä on yleensä alhaisempi verrattuna Grok 3: een [1] [3] [6].
- Koodaus: Grok 3 saavutti 79,4% LiveCodebenchissä, ylittäen GPT-4O: n koodintuotantotehtävissä. GPT-4O: n erityinen pistemäärä LiveCodebenchissä ei ole yksityiskohtaista, mutta Grok 3 on yleensä erinomainen koodausvertailuarvoissa [1] [3] [5].
- Yleinen tieto: Grok 3 sai 79,9% MMLU-PRO: sta, joka testaa laajaa tietoa useiden aiheiden välillä. GPT-4O sai 72,6% samassa vertailukohdassa, mikä osoittaa Grok 3: n vahvemman suorituskyvyn yleisissä tietotehtävissä [3].
- Multimodaalinen ymmärrys: Grok 3 osoitti mahdollisuuksia multimodaalisissa tehtävissä, kuten MMMU (multimodaalinen monitehtävän mallin ymmärtäminen), vaikka erityiset vertailut GPT-4O: n kanssa tällä alueella ovat rajoitetut [1] [3].
Kaiken kaikkiaan Grok 3: lla on taipumus ylittää GPT-4O: n erikoistuneissa tehtävissä, kuten matematiikka, tiede ja koodaus, kun taas GPT-4O saattaa olla monipuolisempi yleiskäyttöisissä sovelluksissa [2] [5] [6].
Viittaukset:[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
.
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vs-chatgpt-vs-deepsek-vs-claude-vs-gemini- which-aai-is-best-in-febrary-2025/
.
[8] https://writesonic.com/blog/grok-3-vs-chatgpt