DeepSeek-R1: n ja LLAMA 3.1: n koulutustietoilla on useita keskeisiä eroja, jotka heijastavat erillisiä lähestymistapoja mallien kehittämiseen.
Deepseek-R1-koulutustiedot
Deepseek-R1 on koulutettu monivaiheisella prosessilla, joka yhdistää vahvistusoppimisen (RL) valvotulla hienosäätöön (SFT). Malli alkaa "kylmäkäynnistys" -vaiheesta, jossa se on hienosäädetty pienellä sarjalla huolellisesti muotoiltuja esimerkkejä selkeyden ja luettavuuden parantamiseksi. Tätä seuraa puhdas RL päättelytaitojen parantamiseksi, samanlainen kuin R1-Zero. RL -konvergenssin lähellä malli käyttää hylkäämisenäytteitä synteettisen tiedon luomiseen valitsemalla parhaat esimerkit aiemmista RL -ajoista. Tämä synteettinen tieto yhdistetään sitten DeepSeek-V3-emäksen valvotulla tiedolla aloilla, kuten kirjoittaminen, tosiasiallinen laadunvarmistus ja itsemäärä. Viimeiseen vaiheeseen sisältyy toinen RL -kierros monien kehotusten ja skenaarioiden välillä mallin ominaisuuksien yleistämiseksi edelleen [1] [4].
LLAMA 3.1 -koulutustiedot
Toisaalta LLAMA 3.1 on koulutettu massiiviseen joukkoon noin 15 biljoonaa rahakkeita julkisesti saatavilla olevista lähteistä, ja tiedon rajapäivä joulukuussa 2023 [8]. Harjoittelutietojoukko sisältää tasapainoisen sekoituksen yleisiä verkkotunnuksia, matemaattisia ja päättelytietoja, monikielisiä tekstejä ja koodia eri ohjelmointikielistä koodin luomisen ja ymmärryksen ominaisuuksien parantamiseksi [5]. Malli suoritetaan alustava esikoulutus seuraavan sanan ennustetavoitetta käyttämällä, jota seuraa pitkän kontekstin esisarjoittelu pitkien asiakirjojen ja monimutkaisten päättelutehtävien käsittelemiseksi. Tietosekoitusta säädetään huolellisesti tiettyjen tehtävien suorituskyvyn parantamiseksi, kuten monikielisten ominaisuuksien lisäämisen lisäämiseksi ja matemaattisten tietojen lisääminen parempaan päättelyyn [2] [5].
keskeiset erot
1. Koulutusmenetelmä: DeepSek-R1 riippuu voimakkaasti vahvistusoppimisesta ja synteettisestä tiedon luomisesta, kun taas LLAMA 3.1 käyttää perinteisempää valvottua oppimislähestymistapaa massiivisella ennen harjoittelua koskevaa tietojoukkoa.
2. Tietolähteet: DeepSek-R1 käyttää alkuperäisen kylmän käynnistystiedon ja synteettisen tiedon yhdistelmää RL-prosessin aikana. Sitä vastoin LLAMA 3.1 on koulutettu suurelle julkisesti saatavilla oleville tiedoille.
3. Tiedon määrän ja laatu: LLAMA 3.1 on koulutettu paljon suuremmalla tietojoukolla (~ 15 biljoonaa merkkiä) verrattuna Deepseek-R1: lle käytettyyn suhteellisen pieneen alkuperäiseen tietojoukkoon. Synteettisen datan käyttämä Deepseek-R1 antaa sille kuitenkaan mahdollisuuden saavuttaa korkean suorituskyvyn päättelytehtävissä pienemmältä alkuperäisestä aineistosta huolimatta.
4. Keskitymisalueet: Molemmat mallit keskittyvät parantamaan päättelyä ja tietokykyä, mutta Deepseek-R1 korostaa voimakkaasti päättelyä RL: n kautta, kun taas LLAMA 3.1 keskittyy myös monikielisiin ja koodausominaisuuksiin.
Kaiken kaikkiaan DeepSeek-R1: n ja LLAMA 3.1: n koulutustiedot heijastavat erilaisia strategioita mallikehityksessä, kun Deepseek-R1: n hyödyntävät RL: tä ja synteettistä tietoa vahvojen päättelymahdollisuuksien ja LLAMA 3.1: n saavuttamiseksi laajamittaiseen valvottuun oppimislähestymistapaan monenlaisia tehtäviä.
Viittaukset:
.
.
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
.
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
.
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9.