GROK 3 prikazuje superiornost nad GPT-4O pri STEM nalogah skozi več ključnih meril:
1. matematika (AIME 2025): Grok 3 doseže oceno 93,3%, kar znatno presega oceno GPT-4O 79% pri nalogah matematičnega sklepanja [1] [3]. Ta uspešnost je skladna s sposobnostjo Groka 3 za učinkovito reševanje kompleksnih matematičnih problemov.
2. Znanost (GPQA): Grok 3 je ocenil 84,6% pri strokovnem sklepu na diplomirani ravni, kar je preseglo oceno GPT-4O 78% pri znanstvenem reševanju problemov [1] [3]. To kaže na napredne zmogljivosti Groka 3 pri analizi znanstvenih podatkov in zagotavljanju natančnih odgovorov.
3. Kodiranje (LiveCodeBench): Grok 3 se odlikuje z oceno 79,4%, kar je presegalo oceno GPT-4O 72,9% pri nalogi za ustvarjanje kode in programske opreme [1] [3]. To prikazuje sposobnost Groka 3 za učinkovito ustvarjanje čiste, funkcionalne kode.
Ta merila poudarjajo vrhunsko uspešnost Groka 3 na STEM poljih, zaradi česar je najprimernejša izbira za strokovnjake iz matematike, znanosti in programiranja. Poleg tega način Think Grok 3 zagotavlja preglednost v njegovem postopku sklepanja, kar je še posebej koristno za aplikacije STEM [1] [3].
Navedbe:[1] https://writesonic.com/blog/grob-3-vs-chatgpt
[2] https://www.datacamp.com/blog/grob-3
[3] https://www.leanware.co/insights/grob-3-vs-gpt-models-Coparison
[4] https://www.helicone.ai/blog/grok-3-bechmark-Compaparison
[5] https://www.nitromediagroup.com/grob-3-elon-musk-xai-vs-chatgpt-reep-seek/
[6] https://twitter.com/khandnatpan/status/1892435136362279007
[7] https://x.ai/blog/grob-3
[8] https://opencv.org/blog/grob-3/
[9] https://channel8.com/english/31979