Porovnanie údajov o školení Deepseek-R1 a Llama 3.1

Aké sú kľúčové rozdiely v školiacich údajoch použitých pre Deepseek-R1 a Llamu 3.1

Údaje o výcviku pre Deepseek-R1 a Llamu 3.1 vykazujú niekoľko kľúčových rozdielov, čo odráža odlišné prístupy k vývoju modelu.

Deepseek-R1 Training údajov

DeepSeek-R1 je trénovaný pomocou viacstupňového procesu, ktorý kombinuje posilňovacie učenie (RL) s pod dohľadom do ladenia (SFT). Model začína fázou „studeného štartu“, kde sa doladí na malej sadii starostlivo vytvorených príkladov, aby sa zlepšila čistota a čitateľnosť. Nasleduje Pure RL na zlepšenie zručností zdôvodňovania, podobne ako R1-Zero. V blízkosti konvergencie RL model používa vzorkovanie odmietnutia na vytvorenie syntetických údajov výberom najlepších príkladov z predchádzajúcich RL cyklov. Tieto syntetické údaje sa potom zlúčia s údajmi pod dohľadom z Deepseek-V3-Base v doménach, ako je písanie, faktická QA a sebadôvera. Záverečná fáza zahŕňa ďalšie kolo RL v rôznych výzvach a scenároch na ďalšie zovšeobecnenie schopností modelu [1] [4].

Llama 3.1 Údaje o školení

Llama 3.1, na druhej strane, je vyškolený na masívnom korpuse s približne 15 biliónmi žetónov z verejne dostupných zdrojov, s dátumom obmedzenia vedomostí v decembri 2023 [8]. Súbor údajov o výcviku obsahuje vyváženú kombináciu všeobecných domén, matematických a zdôvodňovacích údajov, viacjazyčných textov a kódu z rôznych programovacích jazykov na zlepšenie možností generovania a porozumenia kódu [5]. Model prechádza počiatočným predbežným tréningom s použitím objektívu predpovede ďalšieho vedenia, po ktorom nasleduje predbežné školenie s dlhým kontextom na spracovanie dlhých dokumentov a zložité uvažovacie úlohy. Dátový mix je starostlivo upravený tak, aby zlepšil výkonnosť konkrétnych úloh, ako je napríklad zvýšenie neanglických údajov pre viacjazyčné schopnosti a matematické údaje odobratia vzoriek pre lepšie zdôvodnenie [2] [5].

Kľúčové rozdiely

1. Tréningový prístup: Deepseek-R1 sa vo veľkej miere spolieha na posilňovacie učenie a generovanie syntetických údajov, zatiaľ čo Llama 3.1 používa tradičnejší prístup k učebniu pod dohľadom s masívnym súborom údajov pred tréningom.

2. Zdroje údajov: DeepSeek-R1 používa kombináciu počiatočných údajov za studena a syntetické údaje generované počas procesu RL. Naopak, Llama 3.1 je vyškolený na veľkom korpuse verejne dostupných údajov.

3. Objem a kvalita údajov: Llama 3.1 je trénovaná na oveľa väčšom súbore údajov (~ 15 biliónov tokenov) v porovnaní s relatívne malým počiatočným súborom údajov používanom pre Deepseek-R1. Použitie syntetických údajov DeepSeek-R1 však umožňuje dosiahnuť vysoký výkon pri odôvodnení úloh napriek menšiemu počiatočnému súboru údajov.

4. Oblasti zamerania: Oba modely sa zameriavajú na zlepšenie schopností zdôvodňovania a znalostí, ale Deepseek-R1 kladie silný dôraz na zdôvodnenie prostredníctvom RL, zatiaľ čo Llama 3.1 sa tiež zameriava na viacjazyčné a kódovacie schopnosti.

Celkovo sa údaje o výcviku pre Deepseek-R1 a Llamu 3.1 odrážajú rôzne stratégie vo vývoji modelu, pričom Deepseek-R1 využívajú RL a syntetické údaje, aby sa dosiahli silné schopnosti zdôvodnenia a Llama 3.1, ktorí sa spoliehajú na rozsiahly vzdelávací prístup dohľadu nad dohľadom, ktorý pokrýva širokú škálu úloh.

Citácie:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-us-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-manguage-models-llms/llama-3-1-guide-what-to-know-ot-about-about-tine--swe--vew-405b
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-model-wow-and-how-it-anks-against-openais-o1