Deepseek R1 Modelo Desempenho no Aime Benchmark - Comparação com o OpenAI O1 e outros modelos de IA

Como o desempenho de Deepseek no AIME 1 se compara a outros modelos de IA

O modelo R1 da Deepseek demonstra um forte desempenho no benchmark do American Invitational Mathematics Examination (AIME), que é uma prestigiada competição de matemática para estudantes do ensino médio. Aqui está uma comparação detalhada do desempenho da DeepSeek R1 com outros modelos de IA no AIME:

1. Deepseek R1 vs. Openai O1: Deepseek R1 mostrou resultados competitivos no AIME, com uma pontuação de 79,8% no Aime 2024, ligeiramente à frente do OpenAI O1-1217 a 79,2% [9]. No entanto, o OpenAI O1 alcançou uma pontuação mais alta de 96,7% em outra comparação, indicando variabilidade nas métricas de desempenho ou versões dos modelos utilizados [8]. Deepseek R1-Zero, um modelo precursor, marcou 71,0% no Aime 2024, que está ligeiramente abaixo do OpenAI O1-0912, mas acima de O1-mini [1].

2. Comparação com outros modelos: em uma comparação mais ampla, o Deepseek R1 teve um bom desempenho, mas não foi o melhor marcador. Por exemplo, o Openai O3 Mini ficou em primeiro lugar com uma precisão de 86,5% na AIME, seguida por Deepseek R1 e O1 [2]. Isso sugere que, embora o Deepseek R1 seja competitivo, nem sempre pode superar os modelos mais recentes como o O3 Mini.

3. Variabilidade de desempenho: o desempenho dos modelos de IA no AIME pode variar significativamente, dependendo da versão específica do teste. Por exemplo, os modelos geralmente tiveram melhor desempenho nas perguntas mais antigas do Aime 2024 em comparação com as perguntas mais recentes do Aime 2025, possivelmente devido à inclusão de perguntas anteriores em seus dados de treinamento [2].

4. Capacidades de raciocínio: O forte desempenho do DeepSeek R1 no AIME é atribuído aos seus recursos avançados de raciocínio, que permitem resolver problemas matemáticos complexos de maneira eficaz. No entanto, seu desempenho pode diminuir quando confrontado com variantes de perguntas que exigem um raciocínio lógico mais profundo [7].

No geral, o Deepseek R1 demonstra desempenho robusto na AIME, competindo em estreita colaboração com outros modelos de topo como o OpenAi O1, embora nem sempre possa liderar todas as comparações. Sua natureza de código aberto e eficiência de custos o tornam uma escolha atraente para os desenvolvedores que desejam alavancar as capacidades avançadas de raciocínio em matemática.

Citações:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-dranks-against-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-roenasoning-model-deats-openais-o1-on-certar-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is better/
[9] https://www.datacamp.com/blog/deepseek-r1