Comparaison des données de formation Deepseek-R1 et Llama 3.1

Quelles sont les principales différences dans les données de formation utilisées pour Deepseek-R1 et Llama 3.1

Les données de formation pour Deepseek-R1 et Llama 3.1 présentent plusieurs différences clés, reflétant des approches distinctes du développement du modèle.

Données de formation Deepseek-R1

Deepseek-R1 est formé à l'aide d'un processus en plusieurs étapes qui combine l'apprentissage du renforcement (RL) avec un réglage fin supervisé (SFT). Le modèle commence par une phase de "démarrage à froid", où elle est affinée sur un petit ensemble d'exemples soigneusement conçus pour améliorer la clarté et la lisibilité. Ceci est suivi par Pure RL pour améliorer les compétences de raisonnement, similaires à R1-Zero. Près de la convergence RL, le modèle utilise un échantillonnage de rejet pour créer des données synthétiques en sélectionnant les meilleurs exemples à partir des exécutions RL précédentes. Ces données synthétiques sont ensuite fusionnées avec des données supervisées de Deepseek-V3-base dans des domaines tels que l'écriture, la QA factuelle et l'auto-copline. La dernière étape implique une autre série de RL à travers diverses invites et scénarios pour généraliser davantage les capacités du modèle [1] [4].

LLAMA 3.1 Données de formation

Llama 3.1, en revanche, est formé sur un corpus massif d'environ 15 billions de jetons provenant de sources accessibles au public, avec une date de coupure de connaissances de décembre 2023 [8]. L'ensemble de données de formation comprend un mélange équilibré de domaines généraux, de données mathématiques et de raisonnement, de textes multilingues et de code de divers langages de programmation pour améliorer les capacités de génération de code et de compréhension [5]. Le modèle subit une pré-formation initiale à l'aide d'un objectif de prédiction à token suivant, suivi d'une pré-formation à long contexte pour gérer de longs documents et des tâches de raisonnement complexes. Le mélange de données est soigneusement ajusté pour améliorer les performances sur des tâches spécifiques, telles que l'augmentation des données non anglophones pour les capacités multilingues et les données mathématiques à échantillonnage pour un meilleur raisonnement [2] [5].

Différences clés

1. Approche de formation: Deepseek-R1 s'appuie fortement sur l'apprentissage du renforcement et la génération de données synthétiques, tandis que LLAMA 3.1 utilise une approche d'apprentissage supervisée plus traditionnelle avec un ensemble de données pré-formation massif.

2. Sources de données: Deepseek-R1 utilise une combinaison de données initiales de démarrage à froid et de données synthétiques générées pendant le processus RL. En revanche, Llama 3.1 est formé sur un grand corpus de données accessibles au public.

3. Volume et qualité des données: LLAMA 3.1 est formé sur un ensemble de données beaucoup plus grand (~ 15 billions de jetons) par rapport à l'ensemble de données initial relativement petit utilisé pour Deepseek-R1. Cependant, l'utilisation des données synthétiques par Deepseek-R1 lui permet d'obtenir des performances élevées dans les tâches de raisonnement malgré le plus petit ensemble de données initial.

4. Domaines d'intérêt: Les deux modèles se concentrent sur l'amélioration des capacités de raisonnement et de connaissances, mais Deepseek-R1 met fortement l'accent sur le raisonnement via RL, tandis que LLAMA 3.1 se concentre également sur les capacités multilingues et de codage.

Dans l'ensemble, les données de formation pour Deepseek-R1 et Llama 3.1 reflètent différentes stratégies dans le développement de modèles, avec Deepseek-R1 en tirant parti des RL et des données synthétiques pour obtenir de solides capacités de raisonnement et LLAMA 3.1 en s'appuyant sur une approche d'apprentissage supervisée à grande échelle pour couvrir un large éventail de tâches.

Citations:
[1] https://www.vellum.ai/blog/the-training-of-epseek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-bededict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-R1
[5] https://kili-technology.com/large-anguage-models-llms/llama-3-1-guide-what-to-know-about-meta-snew-405b-model-and-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasoning-model
[8] https://huggingface.co/meta-llama/Lama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-oo1