GROK 3 pret GPT-4O: etalona veiktspējas salīdzinājums matemātikā, zinātnē un kodēšanā

Kādi konkrētie etaloni ir pārbaudīti Grok 3 un GPT-4O

GROK 3 un GPT-4O ir pārbaudīti uz vairākiem etaloniem, lai novērtētu to sniegumu dažādās jomās:

- Matemātika: GROK 3 sasniedza 93,3% punktu skaitu 2025. gada Amerikas Invitational matemātikas eksāmenā (AIME), savukārt GPT-4O sniegums šajā jomā nav skaidri izcelts pieejamajos datos. Tomēr Grok 3 sniegums AIME 2024 tika atzīts par ievērojami augstāku nekā GPT-4O vispārējais sniegums ar matemātiku saistītos uzdevumos [1] [3] [5].

-Zinātne un argumentācija: GROK 3 ieguva 84,6% no GPQA (absolventa līmeņa ekspertu argumentācijas) testa, parādot savu spēku absolventa līmeņa zinātnes zināšanās. GPT-4O veiktspēja līdzīgos argumentācijas uzdevumos parasti ir zemāks, salīdzinot ar Grok 3 [1] [3] [6].

- Kodēšana: Grok 3 sasniedza 79,4% no LiveCodeBench, pārspējot GPT-4O kodu ģenerēšanas uzdevumos. GPT-4O īpašais vērtējums par LivecodeBench nav detalizēts, bet Grok 3 parasti ir izcils kodējošos etalonos [1] [3] [5].

- Vispārējās zināšanas: Grok 3 ieguva 79,9% no MMLU-Pro, kas pārbauda plašas zināšanas vairākos priekšmetos. GPT-4O ieguva 72,6% no tā paša etalona, norādot uz Grok 3 spēcīgāko sniegumu vispārējo zināšanu uzdevumos [3].

- Multimodālā izpratne: GROK 3 parādīja iespējas multimodālos uzdevumos, piemēram, MMMU (multimodālā daudzuzdevumu modeļa izpratne), lai gan šajā apgabalā ir ierobežoti specifiski salīdzinājumi ar GPT-4O [1] [3].

Kopumā Grok 3 ir tendence pārspēt GPT-4O specializētos uzdevumos, piemēram, matemātikā, zinātnē un kodēšanā, savukārt GPT-4O varētu būt daudzpusīgāks vispārējas nozīmes lietojumos [2] [5] [6].

Atsauces:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
.
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
.
[7] https://lifehacker.com/tech/i-tested-grok-3-and-its-not-worth-the-price-cike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt