„Deepseek R1“: revoliucija samprotavimai su pastiprinimo mokymuisi

Kaip „Deepseek R1“ stiprinimo mokymosi metodas padidina jo samprotavimo galimybes

„Deepseek R1“ padidina savo samprotavimo galimybes naudodamasi naujojo sustiprinimo mokymosi (RL) metodu, kuris skiriasi nuo tradicinių prižiūrimų derinimo (SFT) metodų. Ši novatoriška strategija leidžia modeliui savarankiškai ir efektyviai tobulinti samprotavimo įgūdžius.

Stiprinimo mokymosi sistema

„Deepseek R1“ naudoja grupės santykinę politikos optimizavimą (GRPO)-taisykles pagrįstą RL sistemą, leidžiančią modeliui mokytis iš bandymų ir klaidų, nesikliavęs iš anksto pažymėtais duomenų rinkiniais. Šis požiūris leidžia modeliui ištirti didžiulę sprendimų erdvę, atrasti unikalius samprotavimo modelius ir strategijas, kurių gali nebūti prižiūrimuose mokymo duomenyse [1] [2] [4]. Skatindamas samprotavimus RL proceso metu, „Deepseek R1“ gali generuoti nuoseklias minties grandines ir įsitraukti į savęs patikrinimą ir atspindį, kurie yra labai svarbūs sudėtingam problemų sprendimui [4].

Kelių pakopų mokymo procesas

„Deepseek R1“ mokymas yra padalintas į keletą etapų:

1. Šaltojo pradžios etapas: Modelis prasideda nedideliu kiekiu aukštos kokybės prižiūrimų duomenų, surinktų iš jo pirmtako „Deepseek R1-Zero“. Šis etapas padeda sušvelninti tokias problemas kaip blogas skaitomumas ir kalbos maišymas, kuris buvo stebimas ankstesniuose modeliuose [1] [2].

2. Į samprotavimus orientuotas RL: Po šalčio pradžios modelis yra išsamiai orientuotas į samprotavimus. Šiame etape pagrindinis dėmesys skiriamas tam tikrų sričių, tokių kaip kodavimas, matematika ir logika, galimybių tobulinti, kai aiškius sprendimus galima apibrėžti naudojant atlygio taisykles [3] [4].

3. Tada šie duomenys naudojami tolesniam derinimui, leidžiančiam modeliui patikslinti jo samprotavimo gebėjimus atliekant įvairias užduotis [1] [2].

Veiklos rezultatai

Šio griežto mokymo proceso rezultatas yra modelis, kuris pasiekia našumo lygį, panašų į pagrindinius modelius, tokius kaip „Openai“ O1-1217 dėl samprotavimo užduočių. Pavyzdžiui, „Deepseek R1“ parodė reikšmingą etalonų pagerėjimą, o pravažiavimų procentas padidėjo nuo 15,6% iki 71% AIME 2024 užduočių, parodant padidėjusias jo samprotavimo galimybes [1] [2].

Apibendrinant galima pasakyti, kad „Deepseek R1“ stiprinimo mokymosi metodas ne tik skatina nepriklausomus samprotavimus, bet ir padidina problemų sprendimo efektyvumą, sumažindamas priklausomybę nuo plačių prižiūrimų duomenų rinkinių. Tai apibūdina tai kaip galingas įrankis didelių kalbų modelių kraštovaizdyje.

Citatos:
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
[4] https://arbisoft.com/blogs/deep-seek-r1-the-chinese-ai-powerhouse- outreforming-open- ai-s-o1-at-95- be-Cost
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-model-oveview-and-how-it-ranks-against-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-use-it-it