Confronto tra i dati di formazione DeepSeek-R1 e Llama 3.1

Quali sono le differenze chiave nei dati di formazione utilizzati per DeepSeek-R1 e Llama 3.1

I dati di formazione per DeepSeek-R1 e Llama 3.1 mostrano diverse differenze chiave, riflettendo approcci distinti allo sviluppo del modello.

DeepSeek-R1 Dati di formazione

DeepSeek-R1 è addestrato utilizzando un processo a più stadi che combina l'apprendimento del rinforzo (RL) con la messa a punto supervisionata (SFT). Il modello inizia con una fase di "start a freddo", in cui è messo a punto su una piccola serie di esempi accuratamente realizzati per migliorare la chiarezza e la leggibilità. Questo è seguito da RL puro per migliorare le capacità di ragionamento, simili a R1-Zero. Vicino a RL Convergence, il modello utilizza il campionamento di rifiuto per creare dati sintetici selezionando i migliori esempi dalle precedenti esecutive RL. Questi dati sintetici vengono quindi uniti con dati supervisionati da DeepSeek-V3-Base in domini come la scrittura, il QA fattuale e l'auto-cognizione. La fase finale prevede un altro giro di RL attraverso diversi istruzioni e scenari per generalizzare ulteriormente le capacità del modello [1] [4].

Llama 3.1 Dati di formazione

Llama 3.1, d'altra parte, è addestrato su un enorme corpus di circa 15 trilioni di token da fonti disponibili al pubblico, con una data di interruzione delle conoscenze del dicembre 2023 [8]. Il set di dati di addestramento include un mix bilanciato di domini generali, dati matematici e di ragionamento, testi multilingui e codice da vari linguaggi di programmazione per migliorare le capacità di generazione e comprensione del codice [5]. Il modello subisce un pre-allenamento iniziale utilizzando un obiettivo di previsione del prossimokken, seguito da pre-allenamento a lungo contesto per gestire documenti lunghi e compiti di ragionamento complessi. Il mix di dati viene accuratamente regolato per migliorare le prestazioni su attività specifiche, come l'aumento dei dati non inglesi per le capacità multilingue e i dati matematici a valle per un miglior ragionamento [2] [5].

differenze chiave

1. Approccio di addestramento: DeepSeek-R1 si basa fortemente sull'apprendimento del rinforzo e sulla generazione di dati sintetici, mentre Llama 3.1 utilizza un approccio di apprendimento supervisionato più tradizionale con un enorme set di dati pre-allenamento.

2. Fonti di dati: DeepSeek-R1 utilizza una combinazione di dati iniziali di avvio a freddo e dati sintetici generati durante il processo RL. Al contrario, Llama 3.1 è addestrato su un grande corpus di dati disponibili al pubblico.

3. Volume e qualità dei dati: Llama 3.1 è addestrato su un set di dati molto più grande (~ 15 trilioni di token) rispetto al set di dati iniziale relativamente piccolo utilizzato per DeepSeek-R1. Tuttavia, l'uso di dati sintetici di Deepseek-R1 gli consente di ottenere prestazioni elevate nelle attività di ragionamento nonostante il set di dati iniziale più piccolo.

4. Aree di messa a fuoco: entrambi i modelli si concentrano sul miglioramento delle capacità di ragionamento e conoscenza, ma DeepSeek-R1 pone una forte enfasi sul ragionamento attraverso RL, mentre Llama 3.1 si concentra anche su capacità multilingue e di codifica.

Nel complesso, i dati di formazione per DeepSeek-R1 e Llama 3.1 riflettono diverse strategie nello sviluppo del modello, con DeepSeek-R1 che sfrutta i dati RL e sintetici per ottenere forti capacità di ragionamento e Llama 3.1 che si basano su un approccio di apprendimento supervisionato su larga scala per coprire una vasta gamma di attività.

Citazioni:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-res-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benetict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to-know-about-meta--new-405b-model-and-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-ragion-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.pompthub.us/blog/deepseek-1-model-overview-and-how-it-larks-against-openais-o1