DeepSEEK-R1 un LLAMA 3.1 apmācības datu salīdzinājums

Kādas ir galvenās atšķirības apmācības datos, ko izmanto DeepSEEK-R1 un LLAMA 3.1

Apmācības dati par DeepSEEK-R1 un LLAMA 3.1 uzrāda vairākas galvenās atšķirības, atspoguļojot atšķirīgas pieejas modeļa attīstībai.

DeepSeek-R1 apmācības dati

DeepSEEK-R1 tiek apmācīts, izmantojot daudzpakāpju procesu, kas apvieno pastiprināšanas mācīšanos (RL) ar uzraudzītu precizēšanu (SFT). Modelis sākas ar "aukstuma sākuma" fāzi, kur tas ir precīzi noregulēts uz neliela rūpīgi izstrādātu piemēru komplekta, lai uzlabotu skaidrību un lasāmību. Tam seko Pure RL, lai uzlabotu spriešanas prasmes, līdzīgi kā R1-Zero. Netālu no RL konverģences modelis izmanto noraidīšanas paraugu ņemšanu, lai izveidotu sintētiskus datus, atlasot labākos piemērus no iepriekšējiem RL darbiem. Pēc tam šie sintētiskie dati tiek apvienoti ar uzraudzītajiem datiem no DeepSEEK-V3-bāzes tādās jomās kā rakstīšana, faktiskā QA un pašpazīšana. Pēdējais posms ietver vēl vienu RL kārtu dažādās uzvednēs un scenārijos, lai vēl vairāk vispārinātu modeļa iespējas [1] [4].

LLAMA 3.1 apmācības dati

No otras puses, LLAMA 3.1 ir apmācīta masīvā korpusā, kurā ir aptuveni 15 triljoni žetonu no publiski pieejamiem avotiem, ar zināšanu pārtraukšanas datumu-2023. gada decembrī [8]. Apmācības datu kopā ir līdzsvarots vispārējo domēnu, matemātisko un argumentācijas datu, daudzvalodu tekstu un koda sajaukums no dažādām programmēšanas valodām, lai uzlabotu kodu ģenerēšanu un izpratni [5]. Modelim tiek veikta sākotnējā pirms apmācības, izmantojot nākamā marķējuma prognozēšanas mērķi, kam seko ilgstošs konteksta pirms apmācība, lai apstrādātu garus dokumentus un sarežģītus argumentācijas uzdevumus. Datu sajaukums ir rūpīgi koriģēts, lai uzlabotu īpašus uzdevumus, piemēram, palielinot datus, kas nav angliski, daudzvalodu spējām un paraugu ņemšanas matemātiskiem datiem labākai spriešanai [2] [5].

Galvenās atšķirības

1. Apmācības pieeja: DeepSEEK-R1 lielā mērā balstās uz pastiprināšanas mācīšanos un sintētisko datu ģenerēšanu, savukārt Lama 3.1 izmanto tradicionālāku uzraudzītu mācību pieeju ar masīvu pirms apmācības datu kopu.

2. Datu avoti: DeepSEEK-R1 izmanto sākotnējo aukstuma datu un sintētisko datu kombināciju, kas ģenerēti RL procesa laikā. Turpretī LLAMA 3.1 ir apmācīts uz lielu publiski pieejamu datu korpusu.

3. Datu apjoms un kvalitāte: LLAMA 3.1 ir apmācīta daudz lielākā datu kopā (~ 15 triljoni žetonu), salīdzinot ar salīdzinoši mazo sākotnējo datu kopu, ko izmanto DeepSEEK-R1. Tomēr DeepSEEK-R1 sintētisko datu izmantošana ļauj tai sasniegt augstas veiktspējas spriešanas uzdevumos, neskatoties uz mazāku sākotnējo datu kopu.

4. Fokusa jomas: Abi modeļi koncentrējas uz spriešanas un zināšanu spēju uzlabošanu, taču DeepSeek-R1 stingri uzsver spriešanu caur RL, savukārt LLAMA 3.1 koncentrējas arī uz daudzvalodu un kodēšanas iespējām.

Kopumā DeepSEEK-R1 un LLAMA 3.1 apmācības dati atspoguļo dažādas modeļa izstrādes stratēģijas, un DeepSEEK-R1 izmanto RL un sintētiskos datus, lai sasniegtu spēcīgas spriešanas iespējas un LLAMA 3.1, paļaujoties uz liela mēroga uzraudzītu mācību pieeju, lai aptvertu plašu uzdevumu klāstu.

Atsauces:
[1] https://www.vellum.ai/blog/the-training-of-depseek--and-way
[2.]
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
.
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-depseek-r1-reasonmodelis
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek--1-model-overview-and-how-it-ranks-against-openais-o1