Deepseek-R1 ja laama 3.1 koolitusandmed näitavad mitmeid peamisi erinevusi, kajastades mudeli arendamise erinevaid lähenemisviise.
Deepseek-R1 koolitusandmed
Deepseek-R1 koolitatakse mitmeastmelise protsessi abil, mis ühendab tugevdusõppe (RL) juhendatud peenhäälestamisega (SFT). Mudel algab "külma käivitamise" etapiga, kus see on peenhäälestatud väikeste hoolikalt meisterdatud näidete komplektiga, et parandada selgust ja loetavust. Sellele järgneb puhas RL, et parandada mõttekäiku, sarnaselt R1-nulliga. RL -i lähenemise lähedal kasutab mudel sünteetiliste andmete loomiseks tagasilükkamisproovi, valides parimad näited eelmistest RL -i käikudest. Seejärel liidetakse need sünteetilised andmed DeepSEEEK-V3-baasi juhendatud andmetega sellistes domeenides nagu kirjutamine, faktiline QA ja enesetunnetus. Viimane etapp hõlmab veel ühte RL -vooru erinevates viipetes ja stsenaariumides, et mudeli võimalusi veelgi üldistada [1] [4].
Lalama 3.1 koolitusandmed
Lalama 3.1 seevastu koolitatakse massiivsel korpusel, milles on umbes 15 triljonit märki, mis pärinevad avalikult saadaolevatest allikatest, teadmiste lõppkuupäevaga detsember 2023 [8]. Koolitusandmestik sisaldab tasakaalustatud segu üldistest domeenidest, matemaatilistest ja mõttekäikudest, mitmekeelseid tekste ja erinevate programmeerimiskeelte koodi koodide genereerimiseks ja võimaluste mõistmiseks [5]. Mudel läbib esialgse eelkoolituse, kasutades järgmise hüppelise ennustamise eesmärki, millele järgneb pikkade dokumentide ja keerukate mõttekäikude käsitlemiseks pikakonteksti eelkoolitus. Andmete segu on hoolikalt kohandatud, et parandada konkreetsete ülesannete toimivust, näiteks mitmekeelsete võimaluste jaoks mitte-ingliskeelsete andmete suurendamine ja matemaatiliste andmete ülesproovide suurendamine paremate põhjenduste saamiseks [2] [5].
Peamised erinevused
1. Treeningmeetod: Deepseek-R1 tugineb suuresti tugevdusõppe ja sünteetilise andmete genereerimisele, samas kui LEMA 3.1 kasutab traditsioonilisemat juhendatud õppimismeetodit massiivse koolituseelse andmekogumiga.
2. Andmeallikad: DeepSEEK-R1 kasutab RL-protsessi käigus genereeritud esialgsete külma stardi andmete ja sünteetiliste andmete kombinatsiooni. Seevastu on laama 3.1 koolitatud suurel avalikult kättesaadavate andmete korpusel.
3. Andmete maht ja kvaliteet: laama 3.1 koolitatakse palju suuremal andmestikul (~ 15 triljonit žetooni) võrreldes suhteliselt väikese algse andmestikuga, mida kasutatakse DeepSEEK-R1 jaoks. Sünteetiliste andmete kasutamine DeepSEEK-R1 võimaldab sellel siiski saavutada suure jõudluse mõttekäikudes vaatamata väiksemale algsele andmestikule.
4. Fookusvaldkonnad: Mõlemad mudelid keskenduvad mõttekäikude ja teadmiste võimaluste parandamisele, kuid Deepseek-R1 paneb suure rõhku aru põhjendamisele RL-i kaudu, samas kui LEMA 3.1 keskendub ka mitmekeelsetele ja kodeerimisvõimalustele.
Üldiselt peegeldavad DeepSEEK-R1 ja LEMA 3.1 koolitusandmed mudeli arendamise erinevaid strateegiaid, kusjuures DeepSEEK-R1 kasutades RL-i ja sünteetilisi andmeid, et saavutada tugevad mõttekäigud ja LEMA 3.1 tugineda suuremahulisele juhendatud õppimismeetodile, et katta laia valikut ülesandeid.
Tsitaadid:
]
]
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
]
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
]
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
]