Comparaison des performances de référence Deepseek-R1: SWE Vérifié par rapport aux forces de code

Comment les performances de Deepseek-R1 sur la référence vérifiée SWE se comparent-elles à ses performances sur la référence Codeforces

Deepseek-R1 démontre de solides performances à travers divers repères, y compris les références SWE Vérifié et les forces de code. Voici une comparaison détaillée de ses performances sur ces deux repères:

Benchmark vérifié SWE

- Performance: Deepseek-R1 a obtenu un score de 49,2% sur la référence vérifiée SWE, qui évalue le raisonnement dans les tâches d'ingénierie logicielle. Ce score est légèrement en avance sur les 48,9% d'Openai O1-1217 mais légèrement derrière les 50,8% de Claude-3.5-Sonnet-1022 [2] [3].
- Focus des tâches: la référence vérifiée SWE se concentre sur les tâches liées à la vérification des logiciels, ce qui nécessite le modèle pour démontrer sa capacité à raisonner sur les concepts d'ingénierie logicielle.

Codeforces Benchmark

- Performances: Sur le benchmark de Codeforces, Deepseek-R1 a atteint un classement de centile de 96,3 et une note ELO de 2029. Cela le place dans le centile supérieur des participants, bien qu'il soit légèrement derrière Openai O1-1217, qui a obtenu un percentile de 96,6 et une note ELO de 2061 [2] [3].
- Focus des tâches: Le benchmark de Codeforces évalue les capacités de codage et de raisonnement algorithmique d'un modèle en comparant ses performances aux participants humains à des défis de codage concurrentiel.

En résumé, alors que Deepseek-R1 fonctionne de manière compétitive sur les deux repères, il montre une performance relative plus forte sur la référence Codeforces, où elle se classe très haut chez les participants. Cependant, sur la référence SWE vérifiée, ses performances sont également solides mais légèrement moins compétitives par rapport à certains autres modèles comme Claude-3.5-Sonnet-1022. Dans l'ensemble, Deepseek-R1 montre des capacités robustes dans les tâches de codage et de vérification des logiciels.

Citations:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-oo1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-forcoding/
[4] https://techcrunch.com/2025/01/27/deepseek-claids-its-reasoning-model-beats-openaais-o1-on-cecontre-benchmarks/
[5] https://forum.effectivealtruisme.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
[6] https://blog.promptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-ofeasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1