Grok 3 vs GPT-4o: Srovnání výkonu benchmarku v matematice, vědě a kódování

Na jakých konkrétních měřítcích byly testovány grok 3 a GPT-4o

Grok 3 a GPT-4o byly testovány na několika benchmarkech, aby se vyhodnotil jejich výkon v různých oblastech:

- Matematika: Grok 3 dosáhl skóre 93,3% na americkém invitačním matematickém vyšetření z roku 2025 (AIME), zatímco výkon GPT-4o v této oblasti není v dostupných údajích výslovně zdůrazněn. Výkon Grok 3 v AIME 2024 byl však zaznamenán jako výrazně vyšší než obecný výkon GPT-4O v úkolech souvisejících s matematikou [1] [3] [5].

-Věda a zdůvodnění: Grok 3 skóroval 84,6% na testu GPQA (odborné uvažování na úrovni absolventů), což představuje svou sílu ve vědeckých znalostech na postgraduální úrovni. Výkon GPT-4O v podobných úkolech uvažování je obecně nižší ve srovnání s Grok 3 [1] [3] [6].

- Kódování: Grok 3 dosáhl 79,4% na LiveCodeBench, překonal GPT-4o v úkolech generování kódu. Specifické skóre GPT-4O na LivecodeBenchu není podrobně popsáno, ale Grok 3 obecně vyniká v kódovacích benchmarcích [1] [3] [5].

- Obecné znalosti: Grok 3 skóroval 79,9% na MMLU-Pro, který testuje široké znalosti u více předmětů. GPT-4o skóroval 72,6% na stejném měřítku, což naznačuje silnější výkon Grok 3 v obecných znalostních úkolech [3].

- Multimodální porozumění: Grok 3 prokázal schopnosti v multimodálních úkolech, jako je MMMU (multimodální porozumění modelu multitask), i když specifická srovnání s GPT-4o v této oblasti jsou omezené [1] [3].

Celkově má GROK 3 tendenci překonat GPT-4O ve specializovaných úkolech, jako je matematika, věda a kódování, zatímco GPT-4o může být v obecně účetních aplikacích všestrannější [2] [5] [6].

Citace:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-p/news/elon-musk-onveils-rok-3-how-it-forms-against-openais-gpt-4o-deepseek
[5] https://www.helicone.ai/blog/grok-3-Benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-VS-Chatgpt-VS-Deepseek-VS-Claude-Vs-gemini-WHICH-IS-BEST-IS-2025/
[7] https://lifehacker.com/tech/itested-grok-3-and-its-not-worth-the-price-hike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt