Los datos de capacitación para Deepseek-R1 y Llama 3.1 exhiben varias diferencias clave, lo que refleja enfoques distintos para el desarrollo del modelo.
Datos de entrenamiento Deepseek-R1
Deepseek-R1 está entrenado utilizando un proceso de varias etapas que combina el aprendizaje de refuerzo (RL) con ajuste fino supervisado (SFT). El modelo comienza con una fase de "inicio en frío", donde está ajustado en un pequeño conjunto de ejemplos cuidadosamente diseñados para mejorar la claridad y la legibilidad. Esto es seguido por Pure RL para mejorar las habilidades de razonamiento, similar a R1-Zero. Cerca de la convergencia RL, el modelo utiliza el muestreo de rechazo para crear datos sintéticos seleccionando los mejores ejemplos de las ejecuciones RL anteriores. Estos datos sintéticos se fusionan con datos supervisados de Deepseek-V3-Base en dominios como la escritura, el control de calidad y la autoconía. La etapa final implica otra ronda de RL en diversos indicaciones y escenarios para generalizar aún más las capacidades del modelo [1] [4].
Datos de entrenamiento de Llama 3.1
Llama 3.1, por otro lado, está entrenado en un corpus masivo de aproximadamente 15 billones de tokens de fuentes disponibles públicamente, con una fecha de corte de conocimiento de diciembre de 2023 [8]. El conjunto de datos de capacitación incluye una combinación equilibrada de dominios generales, datos matemáticos y de razonamiento, textos multilingües y código de varios lenguajes de programación para mejorar la generación de códigos y las capacidades de comprensión [5]. El modelo se somete a un pretruento inicial utilizando un objetivo de predicción de la siguiente token, seguido de un pre-entrenamiento de contexto largo para manejar documentos largos y tareas de razonamiento complejas. La combinación de datos se ajusta cuidadosamente para mejorar el rendimiento en tareas específicas, como aumentar los datos no ingleses para capacidades multilingües y datos matemáticos de muestreo ascendente para un mejor razonamiento [2] [5].
Diferencias clave
1. Enfoque de entrenamiento: Deepseek-R1 se basa en gran medida en el aprendizaje de refuerzo y la generación de datos sintéticos, mientras que LLAMA 3.1 utiliza un enfoque de aprendizaje supervisado más tradicional con un conjunto de datos masivo de pre-entrenamiento.
2. Fuentes de datos: Deepseek-R1 utiliza una combinación de datos iniciales de arranque en frío y datos sintéticos generados durante el proceso RL. En contraste, Llama 3.1 está capacitado en un gran corpus de datos disponibles públicamente.
3. Volumen y calidad de datos: Llama 3.1 está entrenado en un conjunto de datos mucho más grande (~ 15 billones de tokens) en comparación con el conjunto de datos inicial relativamente pequeño utilizado para Deepseek-R1. Sin embargo, el uso de datos sintéticos por parte de Deepseek-R1 le permite lograr un alto rendimiento en las tareas de razonamiento a pesar del conjunto de datos inicial más pequeño.
4. Áreas de enfoque: Ambos modelos se centran en mejorar el razonamiento y las capacidades de conocimiento, pero Deepseek-R1 pone un fuerte énfasis en el razonamiento a través de RL, mientras que LLAMA 3.1 también se centra en las capacidades multilingües y de codificación.
En general, los datos de capacitación para Deepseek-R1 y Llama 3.1 reflejan diferentes estrategias en el desarrollo del modelo, con RL de apalancamiento de Deepseek-R1 y datos sintéticos para lograr fuertes capacidades de razonamiento y LLAMA 3.1 que depende de un enfoque de aprendizaje supervisado a gran escala para cubrir una amplia gama de tareas.
Citas:
[1] https://www.vellum.ai/blog/the-training-ofdeepseek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-wat-to-know-upout-meta-s-new-405b-model-and-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-raconing-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-gainst-openais-o1