Sammenligning af DeepSeek-R1 og LLAMA 3.1 træningsdata

Hvad er de vigtigste forskelle i de træningsdata, der bruges til DeepSeek-R1 og LLAMA 3.1

Uddannelsesdataene for DeepSeek-R1 og LLAMA 3.1 udviser adskillige centrale forskelle, hvilket afspejler forskellige tilgange til modeludvikling.

Deepseek-R1 træningsdata

DeepSeek-R1 trænes ved hjælp af en multi-trins-proces, der kombinerer forstærkningslæring (RL) med overvåget finjustering (SFT). Modellen starter med en "kold start" -fase, hvor den er finjusteret på et lille sæt omhyggeligt udformede eksempler for at forbedre klarheden og læsbarheden. Dette efterfølges af ren RL for at forbedre ræsonnementsevner, der ligner R1-nul. I nærheden af RL -konvergens bruger modellen afvisningsprøvetagning til at skabe syntetiske data ved at vælge de bedste eksempler fra tidligere RL -kørsler. Disse syntetiske data fusioneres derefter med overvågede data fra Deepseek-V3-basen i domæner som skrivning, faktuel QA og selvkognition. Den sidste fase involverer endnu en runde med RL på tværs af forskellige prompter og scenarier for yderligere at generalisere modellens kapaciteter [1] [4].

Llama 3.1 Træningsdata

Llama 3.1 trænes på den anden side på et massivt korpus på cirka 15 billioner tokens fra offentligt tilgængelige kilder med en videnafskæringsdato i december 2023 [8]. Uddannelsesdatasættet inkluderer en afbalanceret blanding af generelle domæner, matematiske og ræsonnementsdata, flersprogede tekster og kode fra forskellige programmeringssprog for at forbedre kodegenerering og forståelsesfunktioner [5]. Modellen gennemgår indledende foruddannelse ved hjælp af et næste token forudsigelsesmål, efterfulgt af lang-kontekst-præ-træning for at håndtere lange dokumenter og komplekse ræsonnementsopgaver. Datamixen justeres omhyggeligt for at forbedre ydelsen på specifikke opgaver, såsom at øge ikke-engelske data for flersprogede kapaciteter og op-sampling matematiske data for bedre ræsonnement [2] [5].

Nøgleforskelle

1. Træningsmetode: DeepSeek-R1 er meget afhængig af forstærkningslæring og syntetisk datagenerering, mens Llama 3.1 bruger en mere traditionel overvåget læringsmetode med et massivt datasæt før træning.

2. Datakilder: DeepSeek-R1 bruger en kombination af indledende koldstart-data og syntetiske data genereret under RL-processen. I modsætning hertil er LLAMA 3.1 trænet i et stort korpus af offentligt tilgængelige data.

3. Datavolumen og kvalitet: LLAMA 3.1 trænes på et meget større datasæt (~ 15 billioner tokens) sammenlignet med det relativt lille indledende datasæt, der bruges til DeepSeek-R1. Imidlertid giver DeepSeek-R1s brug af syntetiske data det mulighed for at opnå høj ydeevne i ræsonnementsopgaver på trods af det mindre indledende datasæt.

4. Fokusområder: Begge modeller fokuserer på forbedring af ræsonnement og videnfunktioner, men DeepSeek-R1 lægger en stærk vægt på ræsonnement gennem RL, mens Llama 3.1 også fokuserer på flersprogede og kodende kapaciteter.

Generelt afspejler træningsdataene for DeepSeek-R1 og LLAMA 3.1 forskellige strategier i modeludvikling, hvor DeepSeek-R1 udnytter RL og syntetiske data for at opnå stærke ræsonnementsfunktioner og LLAMA 3.1 er afhængige af en storstilet overvåget læringsmetode til at dække en bred række opgaver.

Citater:
[1] https://www.vellum.ai/blog/the-training- af-deepseek-r1-og-veje-til-brug-it
[2] https://www.linkedin.com/pulse/dissecting-lama-31-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
)
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/Fine-Tuning-deepseek-r1-Reasoning-model
[8] https://huggingface.co/meta-lama/llama-3.1-8b-instruct
)