Performance Deepseek-R1 sur les références MATH-500 et AIME 2024

Comment les performances de Deepseek-R1 sur la référence MATH-500 se comparent-elles à ses performances sur la référence AIME 2024

Deepseek-R1 démontre de fortes performances dans divers repères mathématiques, en particulier sur les tests MATH-500 et AIME 2024. Voici une comparaison détaillée de ses performances sur ces deux repères:

MATH-500 Benchmark

- Performance: Deepseek-R1 obtient une passe impressionnante à 1 score de 97,3% sur la référence MATH-500. Ce score indique que le modèle est très efficace pour résoudre divers problèmes mathématiques de niveau secondaire nécessitant un raisonnement détaillé [1] [4].
- Comparaison avec Openai O1-1217: Deepseek-R1 dépasse légèrement Openai O1-1217, qui marque 96,4% sur le même référence. Cela suggère que Deepseek-R1 a un léger avantage dans la gestion des types de problèmes mathématiques présentés dans MATH-500 [4] [6].

Aime 2024 Benchmark

- Performance: sur la référence AIME 2024, Deepseek-R1 scolarisé 79,8%. Cette référence évalue le raisonnement mathématique avancé en plusieurs étapes, et les performances de Deepseek-R1 indiquent qu'elle est capable de gérer des problèmes mathématiques complexes [1] [4].
- Comparaison avec OpenAI O1-1217: Deepseek-R1 surpasse également l'Openai O1-1217 sur AIME 2024, qui marque 79,2%. Cette différence marginale suggère que les deux modèles sont très compétitifs dans les tâches de raisonnement mathématique avancées [4] [6].

Différences clés entre les repères

- Complexité du problème: AIME 2024 se concentre sur des problèmes mathématiques plus avancés et complexes par rapport à MATH-500, qui comprend une gamme plus large de problèmes de niveau secondaire.
- Performance du modèle: Deepseek-R1 montre un taux de réussite plus élevé sur Math-500 que sur AIME 2024, indiquant qu'il est plus efficace pour résoudre un large éventail de problèmes mathématiques plutôt que les simples.

Dans l'ensemble, Deepseek-R1 démontre de fortes capacités de raisonnement mathématique, avec un avantage notable dans la résolution d'une variété de problèmes mathématiques, comme le montre le référence MATH-500, et les performances compétitives dans les tâches de raisonnement mathématique avancées telles qu'évaluées par AIME 2024.

Citations:
[1] https://huggingface.co/deepseek-ai/deepseek-r1
[2] https://artificialanalysis.ai/models/deepseek-r1
[3] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-ofeasoning-models/
[4] https://www.datacamp.com/blog/deepseek-r1
[5] https://arcprize.org/blog/R1-zero-R1-results-analysis
[6] https://www.inferless.com/learn/the-ultimate-guide-to-epseek-models
[7] https://techcrunch.com/2025/01/27/deepseek-claids-its-reasoning-model-beats-openaais-o1-on-cecontre-benchmarks/
[8] https://www.geekwire.com/2025/deepseeks-new-model-shows-that-ai-expertis-might-matter-more-than-compute-in-2025/