Sammenligning av DeepSeek-R1 og Llama 3.1 Treningsdata

Hva er de viktigste forskjellene i treningsdataene som brukes for DeepSeek-R1 og Llama 3.1

Opplæringsdataene for DeepSeek-R1 og Llama 3.1 viser flere viktige forskjeller, noe som gjenspeiler distinkte tilnærminger til modellutvikling.

DeepSeek-R1 treningsdata

DeepSeek-R1 er opplært ved hjelp av en flertrinns prosess som kombinerer forsterkningslæring (RL) med overvåket finjustering (SFT). Modellen starter med en "kald start" -fase, der den er finjustert på et lite sett med nøye utformede eksempler for å forbedre klarhet og lesbarhet. Dette blir fulgt av ren RL for å forbedre resonnementferdighetene, ligner på R1-null. I nærheten av RL -konvergens bruker modellen avvisningsprøvetaking for å lage syntetiske data ved å velge de beste eksemplene fra tidligere RL -løp. Disse syntetiske dataene blir deretter slått sammen med overvåkede data fra DeepSeek-V3-base i domener som skriving, fakta QA og selv erkjennelse. Den siste fasen innebærer en ny runde med RL på tvers av forskjellige spørsmål og scenarier for ytterligere å generalisere modellens evner [1] [4].

Llama 3.1 Treningsdata

Llama 3.1, derimot, er trent på et massivt korpus på omtrent 15 billioner symboler fra offentlig tilgjengelige kilder, med en kunnskapsavskjæringsdato i desember 2023 [8]. Treningsdatasettet inkluderer en balansert blanding av generelle domener, matematiske og resonnementdata, flerspråklige tekster og kode fra forskjellige programmeringsspråk for å forbedre kodeproduksjon og forståelsesfunksjoner [5]. Modellen gjennomgår innledende forhåndsopplæring ved bruk av et nest-token prediksjonsmål, etterfulgt av langkontekst før trening for å håndtere lange dokumenter og komplekse resonneringsoppgaver. Datamiksen er nøye justert for å forbedre ytelsen på spesifikke oppgaver, for eksempel å øke ikke-engelske data for flerspråklige evner og up-sampling matematiske data for bedre resonnement [2] [5].

viktige forskjeller

1. Opplæringstilnærming: DeepSeek-R1 er avhengig av forsterkningslæring og generering av syntetisk data, mens Llama 3.1 bruker en mer tradisjonell overvåket læringsmetode med et massivt datasett før trening.

2. Datakilder: DeepSeek-R1 bruker en kombinasjon av innledende kald-startdata og syntetiske data generert under RL-prosessen. Derimot er Llama 3.1 trent på et stort korpus med offentlig tilgjengelige data.

3. Datavolum og kvalitet: Llama 3.1 er trent på et mye større datasett (~ 15 billioner symboler) sammenlignet med det relativt lille innledende datasettet som ble brukt for DeepSeek-R1. Imidlertid gjør DeepSeek-R1s bruk av syntetiske data de kan oppnå høy ytelse i resonneringsoppgaver til tross for det mindre innledende datasettet.

4. Fokusområder: Begge modellene fokuserer på å forbedre resonnement og kunnskapsevner, men DeepSeek-R1 legger en sterk vekt på resonnement gjennom RL, mens Llama 3.1 også fokuserer på flerspråklige og kodingsfunksjoner.

Totalt sett gjenspeiler treningsdataene for DeepSeek-R1 og Llama 3.1 forskjellige strategier i modellutvikling, med DeepSeek-R1 som utnytter RL og syntetiske data for å oppnå sterke resonnementfunksjoner og Llama 3.1 som er avhengige av en storskala overvåket læringsmetode for å dekke et bredt spekter av oppgaver.

Sitasjoner:
[1] https://www.vellum.ai/blog/the-training-of-depseek-r1-and-ways-u-un-it
[2] https://www.linkedin.com/pulse/disscting-lama-31-dip-dive-benedict-mith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/Large-anguage-models-lms/llama-3-1-guide-what-wn-know-about-meta-s-new-405b-modell-og-datatata
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-depseek-r1-reasoning-modellen
[8] https://huggingface.co/meta-lama/lama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-1-model-overview-and-how-it-ranks-ainst-openais-o1