Rendimiento del modelo Deepseek R1 en Aime Benchmark - Comparación con OpenAI O1 y otros modelos AI

¿Cómo se compara el rendimiento de Deepseek en AIME 1 con otros modelos de IA?

El modelo R1 de Deepseek demuestra un fuerte desempeño en el punto de referencia del Examen de Matemáticas Invitacionales Americanas (AIME), que es una prestigiosa competencia de matemáticas para los estudiantes de secundaria. Aquí hay una comparación detallada del rendimiento de Deepseek R1 con otros modelos de IA en AIME:

1. Deepseek R1 vs. OpenAI O1: Deepseek R1 ha mostrado resultados competitivos en AIME, con un puntaje del 79.8% en el AIME 2024, ligeramente por delante de OpenAI O1-1217 al 79.2% [9]. Sin embargo, OpenAI O1 logró una puntuación más alta del 96.7% en otra comparación, lo que indica la variabilidad en las métricas de rendimiento o las versiones de los modelos utilizados [8]. Deepseek R1-cero, un modelo precursor, obtuvo un 71.0% en AIME 2024, que está ligeramente por debajo de OpenAI O1-0912 pero por encima de O1-Mini [1].

2. Comparación con otros modelos: en una comparación más amplia, Deepseek R1 funcionó bien pero no fue el máximo anotador. Por ejemplo, Operai O3 Mini tomó el primer lugar con una precisión del 86.5% en AIME, seguido de Deepseek R1 y O1 [2]. Esto sugiere que si bien Deepseek R1 es competitivo, puede no superar los últimos modelos como O3 Mini.

3. Variabilidad del rendimiento: el rendimiento de los modelos AI en AIME puede variar significativamente según la versión específica de la prueba. Por ejemplo, los modelos generalmente funcionaban mejor en las preguntas más antiguas de AIME 2024 en comparación con las nuevas preguntas AIME 2025, posiblemente debido a la inclusión de preguntas anteriores en sus datos de entrenamiento [2].

4. Capacidades de razonamiento: el fuerte rendimiento de Deepseek R1 en AIME se atribuye a sus capacidades de razonamiento avanzado, que le permiten abordar problemas matemáticos complejos de manera efectiva. Sin embargo, su rendimiento puede disminuir cuando se enfrenta a variantes de preguntas que requieren un razonamiento lógico más profundo [7].

En general, Deepseek R1 demuestra un rendimiento robusto en AIME, compitiendo estrechamente con otros modelos principales como OpenAI O1, aunque no siempre puede conducir en cada comparación. Su naturaleza de código abierto y su rentabilidad lo convierten en una opción atractiva para los desarrolladores que buscan aprovechar las capacidades de razonamiento avanzado en matemáticas.

Citas:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-gainst-openais-o1
[2] https://www.vals.ai/benchmarks/aime-2025-03-11
[3] https://www.vellum.ai/blog/analysis-openai-o1-vs-deepseek-r1
[4] https://artificialanalysis.ai/models/deepseek-r1
[5] https://techcrunch.com/2025/01/27/deepseek-claims-its-razoning-model-beats-openais-o1-on-certing-benchmarks/
[6] https://www.byteplus.com/en/topic/386612
[7] https://www.reddit.com/r/localllama/comments/1ibxhwp/deepseekr1distillqwen32b_2024_aime_i_performance/
[8] https://www.techloy.com/deepseek-r1-v-openai-o1-which-ai-model-is-better/
[9] https://www.datacamp.com/blog/deepseek-r1