Mokymo duomenys apie „Deepseeek-R1“ ir „LLAMA 3.1“ rodo keletą pagrindinių skirtumų, atspindinčių skirtingus modelio plėtros metodus.
„Deepseek-R1“ mokymo duomenys
„Deepseek-R1“ yra mokomas naudojant daugiapakopį procesą, kuriame derinamas armatūros mokymasis (RL) su prižiūrimu tiksliniu derinimu (SFT). Modelis prasideda nuo „šalto pradžios“ fazės, kai jis yra patobulintas ant nedidelio kruopščiai pagamintų pavyzdžių rinkinio, kad pagerintų aiškumą ir skaitomumą. Po to reikia gryno RL, siekiant patobulinti samprotavimo įgūdžius, panašius į R1-Zero. Netoli RL konvergencijos modelis naudoja atmetimo atranką, kad sukurtų sintetinius duomenis, pasirinkdamas geriausius pavyzdžius iš ankstesnių RL paleidimų. Tada šie sintetiniai duomenys yra sujungti su prižiūrimais duomenimis iš „Deepseeek-V3“ bazės tokiose srityse kaip rašymas, faktinis QA ir savęs prisipažinimas. Paskutinis etapas apima dar vieną RL raundą įvairiuose raginimuose ir scenarijuose, siekiant dar labiau apibendrinti modelio galimybes [1] [4].
llama 3.1 mokymo duomenys
Kita vertus, „Llama 3.1“ yra mokoma maždaug 15 trilijonų žetonų iš viešai prieinamų šaltinių, kurių žinių sumažinimas yra 2023 m. Gruodžio mėn. [8]. Mokymo duomenų rinkinyje yra subalansuotas bendrųjų sričių derinys, matematiniai ir samprotavimai, daugiakalbiai tekstai ir kodas iš įvairių programavimo kalbų, siekiant sustiprinti kodų generavimą ir supratimo galimybes [5]. Šis modelis yra pradinis išankstinis mokymas, naudojant kito bandomosios prognozės tikslą, po kurio eina ilgalaikis išankstinis mokymas, kad būtų galima tvarkyti ilgus dokumentus ir sudėtingas samprotavimo užduotis. Duomenų derinys yra kruopščiai pritaikytas siekiant pagerinti konkrečių užduočių atlikimą, pavyzdžiui, padidinti ne angliškų duomenų apie daugiakalbių galimybių ir didėjančių matematinių duomenų, siekiant geresnių samprotavimų [2] [5].
Pagrindiniai skirtumai
1. Treniruotės metodas: „Deepseek-R1“ labai priklauso nuo sustiprinimo mokymosi ir sintetinių duomenų generavimo, o LLAMA 3.1 naudoja labiau tradicinį prižiūrimą mokymosi metodą su masiniu išankstinio mokymo duomenų rinkiniu.
2. Duomenų šaltiniai: „Deepseek-R1“ naudoja pradinių šalto starto duomenų ir sintetinių duomenų, sugeneruotų RL proceso metu, derinį. Priešingai, LLAMA 3.1 yra apmokytas didelėje viešai prieinamų duomenų korpuse.
3. Duomenų apimtis ir kokybė: LLAMA 3.1 mokoma daug didesnio duomenų rinkinio (~ 15 trilijonų žetonų), palyginti su palyginti mažu pradiniu duomenų rinkiniu, naudojamu „Deepseeee-R1“. Tačiau, nepaisant mažesnio pradinio duomenų rinkinio, „Deepseeek-R1“ sintetinių duomenų naudojimas leidžia pasiekti aukštus samprotavimo užduotis.
4. Focuso sritys: Abu modeliai sutelkia dėmesį į samprotavimo ir žinių galimybių gerinimą, tačiau „Deepseeek-R1“ labai pabrėžia samprotavimus per RL, o LLAMA 3.1 taip pat daugiausia dėmesio skiria daugiakalbėms ir kodavimo galimybėms.
Apskritai, „Deepseeek-R1“ ir „LLAMA 3.1“ mokymo duomenys atspindi skirtingas modelio kūrimo strategijas: „Deepseeek-R1“ pasitelkia RL ir sintetinius duomenis, kad būtų pasiektos stiprios samprotavimo galimybės, ir LLAMA 3.1, remdamasis didelio masto prižiūrimu mokymosi metodu, siekiant aprėpti platų užduočių spektrą.
Citatos:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-use-it-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide- what-to-know-about-meta--new-405b-model-and-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasoning-model
[8] https://huggingface.co/meta-llama/llama-3.1-8b-instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1