Jämförelse av Deepseek-R1 och Llama 3.1 träningsdata

Vilka är de viktigaste skillnaderna i utbildningsdata som används för Deepseek-R1 och Llama 3.1

Utbildningsdata för Deepseek-R1 och Llama 3.1 uppvisar flera viktiga skillnader, vilket återspeglar distinkta tillvägagångssätt för modellutveckling.

Deepseek-R1 Training Data

Deepseek-R1 tränas med hjälp av en flerstegsprocess som kombinerar armeringsinlärning (RL) med övervakad finjustering (SFT). Modellen börjar med en "kall start" -fas, där den är finjusterad på en liten uppsättning noggrant utformade exempel för att förbättra tydligheten och läsbarheten. Detta följs av ren RL för att förbättra resonemangsfärdigheterna, liknande R1-Zero. Nära RL -konvergens använder modellen avstötningsprovtagning för att skapa syntetiska data genom att välja de bästa exemplen från tidigare RL -körningar. Denna syntetiska data slås sedan samman med övervakade data från Deepseek-V3-basen i domäner som att skriva, faktisk QA och självkognition. Det sista steget involverar ytterligare en omgång RL över olika instruktioner och scenarier för att ytterligare generalisera modellens kapacitet [1] [4].

Llama 3.1 Utbildningsdata

Llama 3.1, å andra sidan, tränas på ett massivt korpus med cirka 15 biljoner tokens från offentligt tillgängliga källor, med ett kunskapsavbrott i december 2023 [8]. Utbildningsdatasättet innehåller en balanserad blandning av allmänna domäner, matematiska och resonemangsdata, flerspråkiga texter och kod från olika programmeringsspråk för att förbättra kodgenerering och förståelsefunktioner [5]. Modellen genomgår initial förutbildning med hjälp av ett nästa talat förutsägelsemål, följt av förhandsutbildning med lång kontext för att hantera långa dokument och komplexa resonemangsuppgifter. Datablandningen justeras noggrant för att förbättra prestandan på specifika uppgifter, såsom att öka icke-engelska data för flerspråkiga kapaciteter och upptagande matematiska data för bättre resonemang [2] [5].

Nyckelskillnader

1. Träningsmetod: Deepseek-R1 förlitar sig starkt på förstärkningsinlärning och syntetisk dataproduktion, medan Llama 3.1 använder en mer traditionell övervakad inlärningsstrategi med ett massivt förträning-datasätt.

2. Datakällor: Deepseek-R1 använder en kombination av initial kallstartdata och syntetiska data som genererades under RL-processen. Däremot utbildas Llama 3.1 på ett stort korpus med allmänt tillgängliga data.

3. Datavolym och kvalitet: Llama 3.1 tränas på ett mycket större datasätt (~ 15 biljoner tokens) jämfört med det relativt lilla initiala datasättet som används för Deepseek-R1. Deepseek-R1: s användning av syntetiska data gör det dock möjligt att uppnå hög prestanda i resonemangsuppgifterna trots det mindre initiala datasättet.

4. Fokusområden: Båda modellerna fokuserar på att förbättra resonemanget och kunskapsförmågan, men Deepseek-R1 lägger en stark betoning på resonemang genom RL, medan Llama 3.1 också fokuserar på flerspråkiga och kodande kapaciteter.

Sammantaget återspeglar träningsdata för Deepseek-R1 och Lama 3.1 olika strategier i modellutvecklingen, med Deepseek-R1 utnyttjande RL och syntetiska data för att uppnå starka resonemang och lama 3.1 som förlitar sig på en storskalig övervakad inlärningsstrategi för att täcka ett brett utbud av uppgifter.

Citeringar:
]
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-bedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instrukt
[4] https://huggingface.co/blog/open-r1
]
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instrukt
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasekingmodell
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
]