GROK 3 vs GPT-4O: comparação de desempenho de benchmark em matemática, ciência e codificação

Quais benchmarks específicos GROK 3 e GPT-4O foram testados em

GROK 3 e GPT-4O foram testados em vários benchmarks para avaliar seu desempenho em vários domínios:

- Matemática: Grok 3 alcançou uma pontuação de 93,3% no exame de matemática de matemática American Invitational 2025 (AIME), enquanto o desempenho do GPT-4O nessa área não é explicitamente destacado nos dados disponíveis. No entanto, o desempenho do GROK 3 no AIME 2024 foi observado significativamente maior que o desempenho geral do GPT-4O em tarefas relacionadas à matemática [1] [3] [5].

-Ciência e raciocínio: Grok 3 obteve 84,6% no teste GPQA (raciocínio de especialistas em nível de pós-graduação), mostrando sua força no conhecimento científico de nível de pós-graduação. O desempenho do GPT-4O em tarefas de raciocínio semelhante é geralmente menor em comparação com GROK 3 [1] [3] [6].

- Codificação: GROK 3 alcançou 79,4% no LivecodeBench, superando o GPT-4O nas tarefas de geração de código. A pontuação específica do GPT-4O no LivecodeBench não é detalhada, mas Grok 3 geralmente se destaca na codificação de benchmarks [1] [3] [5].

- Conhecimento geral: Grok 3 obteve 79,9% no MMLU-Pro, que testa amplo conhecimento em vários assuntos. O GPT-4O obteve 72,6% na mesma referência, indicando o desempenho mais forte do GROK 3 nas tarefas gerais de conhecimento [3].

- Entendimento multimodal: GROK 3 demonstrou recursos em tarefas multimodais como MMMU (entendimento de modelo multimodal múltiplo), embora comparações específicas com o GPT-4O nessa área sejam limitadas [1] [3].

No geral, o GROK 3 tende a superar o GPT-4O em tarefas especializadas como matemática, ciência e codificação, enquanto o GPT-4O pode ser mais versátil em aplicações de uso geral [2] [5] [6].

Citações:
[1] https://www.leanware.co/insights/grok-3-vs-gpt-models-comparison
[2] https://www.datacamp.com/blog/grok-3
[3] https://x.ai/blog/grok-3
[4] https://www.outlookbusiness.com/start-up/news/elon-musk-unveils-plok-3-how-it-performs-against-openais-gpt-4o-Deepseek
[5] https://www.helicone.ai/blog/grok-3-benchmark-comparison
[6] https://felloai.com/2025/02/grok-3-vs-chatgpt-vs-deepseek-vs-claude-vs-gimini-which-ai-is-best-in-febary-2025/
[7] https://lifehacker.com/tech/i-tested-grok-3-and-its-not-worth-the-price Hike
[8] https://writesonic.com/blog/grok-3-vs-chatgpt