DeepSeek R1: Revolugiranje sklepanja z okrepitvijo

Kako pristop okrepitve Deepseek R1 izboljšuje svoje sposobnosti sklepanja

Deepseek R1 izboljšuje svoje sposobnosti sklepanja z novim pristopom o okrepitvi (RL), ki se razhaja od tradicionalnih nadzorovanih metod natančno nastavitve (SFT). Ta inovativna strategija omogoča modelu, da neodvisno in učinkovito razvije veščine sklepanja.

Okvirni učni okvir

Deepseek R1 uporablja skupinsko relativno optimizacijo politik (GRPO), ki temelji na pravilih RL, ki omogoča, da se model uči iz poskusov in napak, ne da bi se zanašal na predhodno označene nabore podatkov. Ta pristop omogoča modelu, da razišče ogromen prostor rešitve, odkrivanje edinstvenih vzorcev in strategij sklepanja, ki morda ne bodo prisotni v nadzorovanih podatkih o usposabljanju [1] [2] [4]. S spodbujanjem sklepanja med postopkom RL lahko Deepseek R1 ustvari skladne verige misli in se vključi v samoverzifikacijo in razmislek, ki sta ključnega pomena za zapleteno reševanje problemov [4].

Večstopenjski postopek usposabljanja

Trening Deepseek R1 je razdeljen na več faz:

1. faza hladnega zagona: Model se začne z majhno količino kakovostnih nadzorovanih podatkov, zbranih od njegovega predhodnika, Deepseek R1-Zero. Ta faza pomaga ublažiti vprašanja, kot so slaba berljivost in mešanja jezika, ki so jih opazili v prejšnjih modelih [1] [2].

2. RL, usmerjen v sklepanje: Po hladnem zagonu se model izvaja obsežno usposabljanje, usmerjeno v RL. Ta faza se osredotoča na izboljšanje zmogljivosti na določenih področjih, kot so kodiranje, matematika in logika, kjer je mogoče jasne rešitve določiti s pravili nagrajevanja [3] [4].

3. Natančno nastavitev z novimi podatki: Po začetnem usposabljanju RL se z vzorčenjem zavrnitve ustvarijo novi nadzorovani podatki na podlagi kontrolne točke RL. Ti podatki se nato uporabijo za nadaljnje natančno nastavitev, kar omogoča, da model izpopolni svoje sposobnosti sklepanja pri različnih nalogah [1] [2].

Rezultati uspešnosti

Rezultat tega strogega procesa usposabljanja je model, ki dosega ravni uspešnosti, ki so primerljivi z vodilnimi modeli, kot je OpenAI-jev O1-1217, o nalogah sklepanja. Na primer, Deepseek R1 je pokazal pomembne izboljšave referenčnih vrednosti, stopnja prehodov pa se je pri nalogi AIME 2024 povečala s 15,6% na 71%, kar je pokazalo njegove izboljšane zmožnosti sklepanja [1] [2].

Če povzamemo, pristop okrepitve Deepseek R1 ne samo spodbuja neodvisno sklepanje, ampak tudi poveča učinkovitost reševanja problemov, saj zmanjšuje zanašanje na obsežne nadzorovane nabore podatkov. To ga postavlja kot močno orodje v pokrajini velikih jezikovnih modelov.

Navedbe:
[1] https://arxiv.org/html/2501.12948V1
[2] https://myedgeth.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
[4] https://arbisoft.com/blogs/deep-reek-r1-the-chinese-ai-powerhouse-outperforming-open-aai-s-O1-AT-95-brez
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-Openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-aws-to-it-it