Deepseek-R1 démontre de solides performances à travers divers repères, y compris les références SWE vérifiées et les forces de code. Voici une comparaison détaillée de ses performances sur ces deux repères:
Benchmark vérifié SWE
Sur la référence vérifiée SWE, Deepseek-R1 obtient un score de 49,2%, ce qui est légèrement en avance sur l'O1-1217 d'Openai à 48,9% [2] [3]. Cette référence évalue le raisonnement d'un modèle dans les tâches d'ingénierie logicielle, en se concentrant sur des tâches telles que la vérification du code et le débogage. Alors que Deepseek-R1 fonctionne bien, Claude-3.5-Sonnet-1022 le finit légèrement avec un score de 50,8% [3].Codeforces Benchmark
En revanche, Deepseek-R1 excelle sur la référence de Codeforces, atteignant un centile de 96,3 et une note ELO de 2029 [3] [4]. Cela le place parmi les meilleurs interprètes du codage compétitif, après Openai O1-1217, qui mène avec un centile de 96,6 et une note de 2061 [3]. La référence de Codeforces évalue les capacités de codage et de raisonnement algorithmique d'un modèle en comparant ses performances aux participants humains.Comparaison
Alors que Deepseek-R1 fonctionne de manière compétitive sur les deux repères, ses performances sont plus prononcées sur la référence Codeforces. Cela suggère que Deepseek-R1 est particulièrement apte à résoudre les défis algorithmiques et codants, qui sont plus structurés et nécessitent un raisonnement logique précis. Sur le benchmark vérifié SWE, bien qu'il fonctionne bien, il est légèrement moins dominant par rapport à ses performances sur lesforces de code. Cela indique que Deepseek-R1 pourrait être plus adapté aux tâches nécessitant un raisonnement algorithmique plutôt que celles axées sur la vérification et le débogage des logiciels.Dans l'ensemble, Deepseek-R1 démontre la polyvalence sur différents types de tâches de codage et de raisonnement, mais ses forces sont plus évidentes dans la résolution de problèmes algorithmiques.
Citations:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-oo1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-forcoding/
[4] https://techcrunch.com/2025/01/27/deepseek-claids-its-reasoning-model-beats-openaais-o1-on-cecontre-benchmarks/
[5] https://forum.effectivealtruisme.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-ofeasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1