Comparar el costo computacional de la capacitación Deepseek-R1 y Claude 3.5 Sonnet implica examinar varios factores, incluidos los costos estimados de capacitación, la arquitectura del modelo y la eficiencia computacional.
Deepseek-r1
- Costo de capacitación estimado: el costo de capacitación para Deepseek-R1 se estima en entre $ 500,000 y $ 2 millones, y algunas fuentes sugieren que podría ser tan bajo como $ 1 millón cuando comienza desde una versión anterior como Deepseek V3 [1] [4]. Este costo es significativamente más bajo en comparación con otros modelos de IA a gran escala.
-Arquitectura y eficiencia del modelo: Deepseek-R1 emplea una arquitectura de mezcla de expertos (MOE), que está diseñada para ser computacionalmente eficiente. Utiliza el aprendizaje de refuerzo a gran escala para mejorar sus capacidades de razonamiento con datos etiquetados mínimos, reduciendo la carga computacional típicamente asociada con modelos grandes [3] [6].
- Eficiencia computacional: Deepseek-R1 se centra en la arquitectura del modelo dirigido y la eficiencia computacional, lo que contribuye a sus menores costos de capacitación. Logra esto a través de procesos de entrenamiento optimizados y requisitos potencialmente de energía y hardware [1].
Claude 3.5 soneto
- Costo de capacitación estimado: se informa que el costo de capacitación para el soneto Claude 3.5 está en el rango de $ 20 a $ 30 millones, significativamente más alto que Deepseek-R1 [5].
- Arquitectura y eficiencia del modelo: el soneto Claude 3.5 está diseñado para un alto rendimiento en tareas de codificación y ofrece mejoras en la velocidad y la eficiencia en comparación con sus predecesores. Sin embargo, su arquitectura no se centra específicamente en reducir los costos computacionales durante la capacitación [8].
- Costo operativo: si bien el costo de capacitación es alto, Claude 3.5 Sonnet ofrece precios operativos competitivos a $ 3 por millón de tokens de entrada y $ 15 por millón de tokens de salida [8]. Sin embargo, este costo operativo sigue siendo más alto que la estructura de precios de Deepseek-R1, que se beneficia de los mecanismos de almacenamiento en caché [3] [6].
En resumen, Deepseek-R1 tiene un costo de entrenamiento significativamente menor en comparación con el soneto Claude 3.5, principalmente debido a su eficiente arquitectura y metodologías de entrenamiento. Sin embargo, Claude 3.5 Sonnet ofrece un rendimiento superior en ciertas tareas de codificación y está disponible a través de varias API, lo que lo convierte en una opción valiosa para aplicaciones específicas a pesar de sus mayores costos operativos.
Citas:
[1] https://www.byteplus.com/en/topic/384199
[2] https://www.reddit.com/r/openai/comments/1h82pl3/i_spent_8_hours_testing_o1_pro_200_vs_claude/
[3] https://blog.getbind.co/2025/01/23/deepseek-r1-vs-gpt-o1-vs-claude-3-5-sonnet-which-is-best-for-coding/
[4] https://epoch.ai/gradient-updates/what-went-into-training-deepseek-r1
[5] https://www.linkedin.com/posts/debarghyadas_claude-sonnet-35-tok-a-few-10ms-totrain-activity-7290427104863694849-6em-
[6] https://docsbot.ai/models/compare/deepseek-r1/claude-3-5-sonnet
[7] https://www.linkedin.com/posts/jngiam_the-real-training-costs-fordeepseek-ismuch-activity-728968391965982720-wfpg
[8] https://www.anthropic.com/news/claude-3-5-sonnet
[9] https://elephas.app/blog/deepseek-vs-claude