Comparación de rendimiento de referencia Deepseek-R1: SWE Verified vs CodeForces

¿Cómo se compara el rendimiento de Deepseek-R1 en el punto de referencia verificado SWE con su rendimiento en el punto de referencia de CodeForces

Deepseek-R1 demuestra un fuerte rendimiento en varios puntos de referencia, incluidos los puntos de referencia SWE verificados y CodeForces. Aquí hay una comparación detallada de su rendimiento en estos dos puntos de referencia:

SWE Verificado de referencia

- Rendimiento: Deepseek-R1 logró una puntuación del 49.2% en el punto de referencia verificado SWE, que evalúa el razonamiento en las tareas de ingeniería de software. Este puntaje está ligeramente por delante del 48.9% de OpenAI O1-1217, pero ligeramente detrás de Claude-3.5-Sonnet-1022, 50.8% [2] [3].
- Enfoque de la tarea: el punto de referencia verificado SWE se centra en tareas relacionadas con la verificación de software, lo que requiere que el modelo demuestre su capacidad para razonar sobre los conceptos de ingeniería de software.

CodeForces Benchmark

-Rendimiento: en el punto de referencia de CodeForces, Deepseek-R1 alcanzó una clasificación de percentil de 96.3 y una calificación ELO de 2029. Esto lo coloca en el percentil superior de los participantes, aunque está ligeramente detrás de OpenAI O1-1217, que obtuvo un percentil de 96.6 y un ELO de 2061 [2] [3].
- Enfoque de la tarea: el punto de referencia de CodeForces evalúa las capacidades de codificación y razonamiento algorítmico de un modelo al comparar su desempeño con los participantes humanos en desafíos de codificación competitivos.

En resumen, mientras que Deepseek-R1 se desempeña de manera competitiva en ambos puntos de referencia, muestra un rendimiento relativo más fuerte en el punto de referencia de CodeForces, donde se ubica muy alto entre los participantes. Sin embargo, en el punto de referencia verificado SWE, su rendimiento también es fuerte pero ligeramente menos competitivo en comparación con otros modelos como Claude-3.5-Sonnet-1022. En general, Deepseek-R1 demuestra capacidades robustas en tareas de codificación y verificación de software.

Citas:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-gainst-openais-o1
[2] https://www.datacamp.com/blog/deepseek-r1
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepseek-claims-its-razoning-model-beats-openais-o1-on-certing-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-inference-costs
[6] https://blog.prompptlayer.com/openai-o3-vs-deepseek-r1-an-analysis-of-rasoning-models/
[7] https://huggingface.co/deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1