Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Care sunt diferențele cheie în datele de instruire utilizate pentru DeepSeek-R1 și Llama 3.1


Care sunt diferențele cheie în datele de instruire utilizate pentru DeepSeek-R1 și Llama 3.1


Datele de instruire pentru Deepseek-R1 și Llama 3.1 prezintă mai multe diferențe cheie, reflectând abordări distincte ale dezvoltării modelului.

Deepseek-R1 Date de instruire

Deepseek-R1 este instruit folosind un proces cu mai multe etape care combină învățarea de armare (RL) cu reglarea fină supravegheată (SFT). Modelul începe cu o fază „Start Cold”, în care este reglat bine pe un set mic de exemple cu atenție elaborate pentru a îmbunătăți claritatea și lizibilitatea. Aceasta este urmată de RL pur pentru a îmbunătăți abilitățile de raționament, similar cu R1-Zero. Aproape de convergența RL, modelul folosește eșantionarea de respingere pentru a crea date sintetice selectând cele mai bune exemple din rulările anterioare RL. Aceste date sintetice sunt apoi contopite cu date supravegheate de la Deepseek-V3-base în domenii precum scrierea, QA factuală și auto-cogniția. Etapa finală implică o altă rundă de RL în diverse prompturi și scenarii pentru a generaliza în continuare capacitățile modelului [1] [4].

LLAMA 3.1 Date de instruire

Llama 3.1, pe de altă parte, este instruit pe un corpus masiv de aproximativ 15 trilioane de jetoane din surse disponibile public, cu o dată de reducere a cunoștințelor din decembrie 2023 [8]. Setul de date de instruire include un mix echilibrat de domenii generale, date matematice și de raționament, texte multilingve și cod din diverse limbaje de programare pentru a îmbunătăți generarea de coduri și capacitățile de înțelegere [5]. Modelul suferă pre-instruire inițială folosind un obiectiv de predicție următor, urmat de pre-instruirea de context lung pentru a gestiona documente lungi și sarcini de raționament complexe. Mixul de date este ajustat cu atenție pentru a îmbunătăți performanța pe sarcini specifice, cum ar fi creșterea datelor non-englezești pentru capacități multilingve și eșantionarea datelor matematice pentru un raționament mai bun [2] [5].

Diferențe cheie

1. Abordare de instruire: Deepseek-R1 se bazează foarte mult pe învățarea consolidării și generarea de date sintetice, în timp ce Llama 3.1 folosește o abordare de învățare mai tradițională supravegheată cu un set de date masiv de pregătire pre-instruire.

2. Surse de date: Deepseek-R1 folosește o combinație de date inițiale de pornire la rece și date sintetice generate în timpul procesului RL. În schimb, Llama 3.1 este instruit pe un corpus mare de date disponibile public.

3. Volumul și calitatea datelor: Llama 3.1 este instruit pe un set de date mult mai mare (~ 15 trilioane de jetoane) în comparație cu setul de date inițial relativ mic utilizat pentru DeepSeek-R1. Cu toate acestea, utilizarea Deepseek-R1 a datelor sintetice îi permite să obțină performanțe ridicate în sarcinile de raționament, în ciuda setului de date inițial mai mic.

4. Zonele de focalizare: Ambele modele se concentrează pe îmbunătățirea raționamentului și a capacităților de cunoștințe, dar Deepseek-R1 pune un accent puternic pe raționamentul prin RL, în timp ce Llama 3.1 se concentrează și pe capacitățile multilingve și de codare.

În general, datele de instruire pentru Deepseek-R1 și Llama 3.1 reflectă diferite strategii în dezvoltarea modelului, Deepseek-R1 folosind RL și date sintetice pentru a obține capacități de raționament puternice și Llama 3.1 bazându-se pe o abordare de învățare supravegheată pe scară largă pentru a acoperi o gamă largă de sarcini.

Citări:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it-it
[2] https://www.linkedin.com/pulse/dissecting-lama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-manguage-models-llms/llama-3-1-guide-wywy-to-know-about-meta-s-new-405b-model-and-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1