Deepseek-R1 Performance nos benchmarks Math-500 e Aime 2024

Como o desempenho da DeepSeek-R1 na referência Math-500 se compara ao seu desempenho no Aime 2024 Benchmark

O Deepseek-R1 demonstra forte desempenho em vários benchmarks matemáticos, particularmente nos testes Math-500 e Aime 2024. Aqui está uma comparação detalhada de seu desempenho nesses dois benchmarks:

Math-500 Benchmark

-Desempenho: Deepseek-R1 atinge um passe impressionante a 1 pontuação de 97,3% na referência Math-500. Essa pontuação indica que o modelo é altamente eficaz na solução de diversos problemas matemáticos de nível de ensino médio que requerem raciocínio detalhado [1] [4].
-Comparação com OpenAI O1-1217: O Deepseek-R1 supera ligeiramente o OpenAI O1-1217, que obtém 96,4% na mesma referência. Isso sugere que o DeepSeek-R1 tem uma ligeira borda ao lidar com os tipos de problemas matemáticos apresentados no Math-500 [4] [6].

Aime 2024 Benchmark

- Desempenho: na referência Aime 2024, Deepseek-R1 tem 79,8%. Este benchmark avalia o raciocínio matemático avançado de várias etapas, e o desempenho do Deepseek-R1 indica que é capaz de lidar com problemas matemáticos complexos [1] [4].
-Comparação com OpenAI O1-1217: O Deepseek-R1 também supera ligeiramente o OpenAI O1-1217 no AIME 2024, que obtém 79,2%. Essa diferença marginal sugere que ambos os modelos são altamente competitivos em tarefas avançadas de raciocínio matemático [4] [6].

Diferenças -chave entre os benchmarks

-Complexidade do problema: o Aime 2024 se concentra em problemas matemáticos mais avançados e complexos em comparação com o Math-500, que inclui uma gama mais ampla de problemas no ensino médio.
-Desempenho do modelo: Deepseek-R1 mostra uma maior taxa de sucesso no Math-500 do que no Aime 2024, indicando que é mais eficaz na solução de uma ampla gama de problemas matemáticos, em vez de apenas os avançados.

No geral, o Deepseek-R1 demonstra fortes recursos de raciocínio matemático, com uma vantagem notável na solução de uma variedade de problemas matemáticos, como visto no benchmark Math-500 e desempenho competitivo em tarefas avançadas de raciocínio matemático, conforme avaliado pelo AIME 2024.

Citações:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of---reonomening-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/R1-Zero-R1-Results-Análise
[6] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claims-its-roenasoning-model-deats-openais-o1-on-certar-benchmarks/
]