Deepseek-r1 vs Cohere's Command R (agosto de 2024): una comparación integral

¿Cuáles son las principales diferencias de rendimiento entre Deepseek-R1 y el comando R de Cohere (agosto de 2024)

Deepseek-R1 y el comando R de Cohere (agosto de 2024) son modelos de idiomas avanzados, pero exhiben diferencias distintas en el rendimiento, la arquitectura y los precios.

Arquitectura y capacitación:
-Deepseek-R1 es un modelo de mezcla de muelles de expertos (MOE) de 671 mil millones de parámetros, con 37 mil millones de parámetros activados por token. Fue entrenado con aprendizaje de refuerzo a gran escala, centrándose en las capacidades de razonamiento. Este modelo incorpora dos etapas de aprendizaje de refuerzo y dos etapas de ajuste supervisado para mejorar las habilidades de razonamiento y no razonamiento [1] [3].
- Comando R (agosto de 2024), desarrollado por Cohere, presenta una generación de recuperación multilingüe mejorada (RAG) y capacidades de uso de herramientas. Excelente en tareas matemáticas, código y razonamiento, proporcionando resultados comparables a su predecesor, el comando r+[1] [3].

Puntos de referencia de rendimiento:
- Deepseek-R1 se desempeña comparablemente con el modelo O1 de OpenAI en muchos puntos de referencia de razonamiento, incluidas las tareas de matemáticas y código. Se destaca en tareas creativas y de contexto largo como Alpacaeval 2.0 y Arenahard, superando a otros modelos en estas áreas [2]. Deepseek-R1 obtuvo un 90.8% en el punto de referencia MMLU y 84% en MMLU-Pro, lo que demuestra fuertes capacidades de razonamiento [1].
- El comando R (agosto de 2024) logra una puntuación del 67% en el punto de referencia MMLU y el 70% en Humaneval, lo que indica un rendimiento sólido en la generación de códigos y la resolución de problemas [1]. Sin embargo, no se informa su rendimiento en MMLU-Pro y otros puntos de referencia de razonamiento específicos.

Precios y costos:
- Deepseek-R1 es significativamente más costoso que el comando R (agosto de 2024), con costos de entrada a $ 0.55 por millón de tokens y costos de producción a $ 2.19 por millón de tokens. Esto lo hace aproximadamente 3.7 veces más caro para tokens de entrada y salida [1] [3].
- El comando R (agosto de 2024) ofrece costos más bajos, con tokens de entrada con un precio de $ 0.15 por millón y tokens de salida a $ 0.60 por millón [1] [4].

Source y comunidad abierta:
-Deepseek-R1 es de código abierto, lo que permite mejoras y modificaciones impulsadas por la comunidad. Esta apertura puede conducir a posibilidades de desarrollo y personalización más transparentes [1] [5].
- El comando R (agosto de 2024) no es de código abierto, lo que limita la participación de la comunidad en su desarrollo y personalización [1].

Sensibilidad inmediata:
-Deepseek-R1 es sensible a las indicaciones, con pocas indicaciones de disparo que a menudo degradan su rendimiento. Se recomienda utilizar la solicitud de disparo cero con instrucciones claras para obtener resultados óptimos [2].
- No hay una mención específica de la sensibilidad rápida para el comando R (agosto de 2024) en la información disponible.

En resumen, mientras que ambos modelos tienen capacidades de razonamiento fuertes, Deepseek-R1 sobresale en ciertos puntos de referencia y ofrece flexibilidad de código abierto, pero a un costo más alto. El comando R (agosto de 2024) es más rentable y proporciona un rendimiento competitivo en áreas específicas como la generación de código.

Citas:
[1] https://docsbot.ai/models/compare/command-r-08-2024/deepseek-r1
[2] https://www.prompthub.us/blog/deepseek-r-r-model-overview-and-how-it-ranks-gainst-openais-o1
[3] https://docsbot.ai/models/compare/deepseek-r1/command-r-08-2024
[4] https://artificialanalysis.ai/models/command-r
[5] https://blog.prompptlayer.com/deepseek-r1-vs-o1/
[6] https://artificialanalysis.ai/models
[7] https://artificialanalysis.ai/models/command-r-03-2024
[8] https://explodingtopics.com/blog/list-of-llms