Performance du modèle Deepseek R1 sur Benchmark AIME - Comparaison avec Openai O1 et d'autres modèles d'IA

Comment les performances de Deepseek sur AIME 1 se comparent-elles aux autres modèles d'IA

Le modèle R1 de Deepseek démontre de solides performances sur la référence American Invitational Mathematics Examination), qui est un prestigieux concours de mathématiques pour les élèves du secondaire. Voici une comparaison détaillée des performances de Deepseek R1 avec d'autres modèles d'IA sur AIME:

1. Deepseek R1 contre Openai O1: Deepseek R1 a montré des résultats compétitifs sur AIME, avec un score de 79,8% sur l'AIME 2024, légèrement en avance sur Openai O1-1217 à 79,2% [9]. Cependant, OpenAI O1 a atteint un score plus élevé de 96,7% dans une autre comparaison, indiquant la variabilité des métriques de performance ou des versions des modèles utilisés [8]. Deepseek R1-Zero, un modèle précurseur, a marqué 71,0% sur AIME 2024, qui est légèrement inférieur à Openai O1-0912 mais au-dessus de O1-MINI [1].

2. Comparaison avec d'autres modèles: Dans une comparaison plus large, Deepseek R1 a bien fonctionné mais n'était pas le meilleur buteur. Par exemple, Openai O3 Mini a pris la première place avec une précision de 86,5% sur AIME, suivie de Deepseek R1 et O1 [2]. Cela suggère que bien que Deepseek R1 soit compétitif, il peut ne pas toujours surpasser les derniers modèles comme O3 Mini.

3. Variabilité des performances: les performances des modèles d'IA sur AIME peuvent varier considérablement en fonction de la version spécifique du test. Par exemple, les modèles ont généralement mieux fonctionné sur les questions plus anciennes de l'AIME 2024 par rapport aux nouvelles questions AIME 2025, peut-être en raison de l'inclusion de questions précédentes dans leurs données de formation [2].

4. Capacités de raisonnement: les fortes performances de Deepseek R1 sur l'AIME sont attribuées à ses capacités de raisonnement avancées, qui lui permettent de s'attaquer efficacement aux problèmes mathématiques complexes. Cependant, ses performances peuvent diminuer face à des variantes de questions qui nécessitent un raisonnement logique plus profond [7].

Dans l'ensemble, Deepseek R1 démontre des performances robustes sur AIME, en concurrence étroitement avec d'autres meilleurs modèles comme OpenAI O1, bien qu'il ne puisse pas toujours mener dans chaque comparaison. Sa nature open source et sa rentabilité en font un choix attrayant pour les développeurs qui cherchent à tirer parti des capacités de raisonnement avancées en mathématiques.

Citations:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-oo1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claids-its-reasoning-model-beats-openaais-o1-on-cecontre-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1