Podatki o usposabljanju za Deepseek-R1 in LLAMA 3.1 imajo več ključnih razlik, kar odraža različne pristope k razvoju modela.
Podatki o usposabljanju Deepseek-R1
Deepseek-R1 je usposobljen z večstopenjskim postopkom, ki združuje učenje ojačanja (RL) z nadzorovanim natančnim nastavitvijo (SFT). Model se začne s fazo "hladnega začetka", kjer je natančno prilagojen na majhnem naboru skrbno izdelanih primerov za izboljšanje jasnosti in berljivosti. Sledi čisti RL za izboljšanje spretnosti sklepanja, podobno kot R1-Zero. V bližini konvergence RL model uporablja vzorčenje zavrnitve za ustvarjanje sintetičnih podatkov z izbiro najboljših primerov iz prejšnjih RL. Ta sintetični podatki se nato združijo z nadzorovanimi podatki iz baze Deepseek-V3 v področjih, kot so pisanje, dejanska QA in samo spoznanje. Končna stopnja vključuje še en krog RL v različnih pozivih in scenarijih za nadaljnje posplošitev zmogljivosti modela [1] [4].
llama 3.1 Podatki o usposabljanju
LLAMA 3.1 je na drugi strani usposobljen na ogromnem korpusu približno 15 bilijonov žetonov iz javno dostopnih virov, z decembrom 2023, ki je decembra 2023 [8]. Nabor podatkov o usposabljanju vključuje uravnoteženo kombinacijo splošnih domen, matematičnih in sklepajočih podatkov, večjezičnih besedil in kode iz različnih programskih jezikov za izboljšanje ustvarjanja kode in razumevanja zmogljivosti [5]. Model je v začetnem predhodnem usposabljanju z uporabo naslednjega cilja napovedovanja, ki mu sledi predhodno usposabljanje z dolgim kontekstom za ravnanje z dolgimi dokumenti in zapletenimi nalogami sklepanja. Mešanica podatkov je skrbno prilagojena za izboljšanje učinkovitosti na določenih nalogah, na primer povečanje ne-angleških podatkov za večjezične zmogljivosti in matematične podatke za vzorčenje za boljše sklepanje [2] [5].
Ključne razlike
1. pristop usposabljanja: Deepseek-R1 se v veliki meri opira na učenje okrepitve in ustvarjanje sintetičnih podatkov, medtem ko LLAMA 3.1 uporablja bolj tradicionalni nadzorovani pristop učenja z ogromnim naborom podatkov pred treningom.
2. Viri podatkov: Deepseek-R1 uporablja kombinacijo začetnih podatkov o hladnem zagonu in sintetičnih podatkov, ustvarjenih med postopkom RL. V nasprotju s tem je LLAMA 3.1 usposobljen na velikem korpusu javno dostopnih podatkov.
3. Obseg in kakovost podatkov: LLAMA 3.1 je usposobljen za veliko večji nabor podatkov (~ 15 bilijonov žetonov) v primerjavi z relativno majhnim začetnim naborom podatkov, ki se uporablja za Deepseek-R1. Vendar uporaba sintetičnih podatkov Deepseek-R1 omogoča, da kljub manjšemu začetnemu naboru podatkov doseže visoko zmogljivost pri sklepanju nalog.
4. Osredotočenost: Oba modela se osredotočata na izboljšanje zmogljivosti sklepanja in znanja, vendar Deepseek-R1 močno poudarjajo sklepanje prek RL, medtem ko se LLAMA 3.1 osredotoča tudi na večjezične in kodirne zmogljivosti.
Na splošno podatki o usposabljanju za Deepseek-R1 in LLAMA 3.1 odražajo različne strategije pri razvoju modela, pri čemer Deepseek-R1 izkoristijo RL in sintetične podatke, da dosežejo močne zmogljivosti sklepanja, LLAMA 3.1
Navedbe:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-it-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/Large-language-models-llms/llama-3-1-guide-what-to-vezna-about-meta-new-new-405b-model-and-its-Data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-Resoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-Openais-o1