„Deepseek-R1“: Pažangių AI samprotavimų sustiprinimo mokymosi strategija

Kaip „Deepseeek-R1“ RL-FIRST strategija pagerina jos samprotavimo galimybes

„Deepseek-R1“ naudoja sustiprinimo mokymąsi (RL)-pirmiausia strategiją, kad būtų galima žymiai pagerinti savo samprotavimo galimybes, atskirti ją nuo tradicinių modelių, kurie labai priklauso nuo prižiūrimų tikslinių derinimų (SFT). Šis novatoriškas požiūris leidžia „Deepseek-R1“ tobulinti samprotavimo įgūdžius tyrinėdamas ir grįžtant, o ne iš anksto egzistuojančius duomenis.

Pagrindinės RL-First strategijos savybės

1. Nepriklausomas samprotavimo tyrimas **

„Deepseek-R1“ pradeda mokymąsi tik mokantis sustiprinimo, apeidamas pradinę SFT fazę. Tai leidžia modeliui savarankiškai ištirti ir tobulinti jo samprotavimo galimybes. RL sistema skatina modelį įsitraukti į savęs patikrinimą ir refleksiją, todėl atsiranda nuoseklių mąstymo grandinės (COT) atsakymų generavimas. Dėl to „Deepseeek-R1“ gali atlikti sudėtingas samprotavimo užduotis, nenustatant iš anksto nustatyto duomenų rinkinio [2] [4].

2. Kelių pakopų mokymo procesas **

Norėdami dar labiau pagerinti savo našumą, „Deepseek-R1“ apima kelių pakopų mokymo procesą, kuriame yra šalto starto etapas su minimaliais prižiūrimais duomenimis. Iš pradžių modelis yra tiksliai suderintas naudojant tūkstančius COT pavyzdžių prieš atliekant didelius RL mokymus. Šis derinys leidžia „Deepseek-R1“ patobulinti savo samprotavimo įgūdžius, tuo pačiu vis dar pasinaudojant tam tikromis struktūrizuotomis gairėmis, galiausiai pasiekiant našumo lygį, panašų į pagrindinius modelius, tokius kaip „Openai“ O1-1217 [1] [3].

3. Kainų efektyvumas ir prieinamumas **

Pirmoji RL strategija ne tik padidina samprotavimo galimybes, bet ir padidina mokymo efektyvumą. Sumažinus priklausomybę nuo didelių prižiūrimų duomenų rinkinių, „Deepseeek-R1“ yra sukurtas dalimi išlaidų, palyginti su tradiciniais modeliais. Dėl to pažengusiųjų AI samprotavimai tampa prieinamesni pradedantiesiems ir tyrėjams, kurie gali neturėti išteklių plačiam SFT [2] [4].

4

„Deepseek-R1“ pademonstravo nepaprastą samprotavimo etalonų pagerėjimą, o našumo metrika rodo didelę naudą po tūkstančių RL iteracijų. Pavyzdžiui, jo išlaikymo greitis atliekant konkrečias samprotavimo užduotis dramatiškai padidėjo nuo 15,6% iki 71% [1] [3]. Tai parodo RL-FIRST požiūrio veiksmingumą ugdant tvirtus samprotavimo sugebėjimus.

Apibendrinant galima pasakyti, kad „Deepseeek-R1“ RL-First strategija yra reikšminga tobulėjimas kuriant kalbų modelius. Prioriteto nustatymo mokymosi ir šalto starto duomenų integravimui, jis ne tik pagerina samprotavimo galimybes, bet ir siūlo efektyvesnę ir ekonomiškesnę tradicinių mokymo metodų alternatyvą.

Citatos:
[1] https://arxiv.org/html/2501.12948v1
[2] https://arbisoft.com/blogs/deep-seek-r1-the-chinese-ai-power-oterhous-outperforming-open- ai-s-o1-at-95- be-išlaidos
[3] https://huggingface.co/papers/2501.12948
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://arxiv.org/abs/2501.12948
[6] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-use-it-it
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://predibase.com/blog/deepseek-r1-self-improves-and-unseats-o1-with-reinforcation-leeing-leying