Deepseek R1: Revoluționarea raționamentului cu învățarea de întărire

Cum își îmbunătățește abordarea de învățare de consolidare Deepseek R1

Deepseek R1 își îmbunătățește capacitățile de raționament printr-o abordare nouă de învățare de consolidare (RL) care se diverge de la metodele tradiționale de reglare fină supravegheată (SFT). Această strategie inovatoare permite modelului să dezvolte abilități de raționament în mod independent și eficient.

Cadrul de învățare a consolidării

Deepseek R1 folosește optimizarea politicii relative de grup (GRPO), un cadru RL bazat pe reguli care permite modelului să învețe din încercare și eroare fără a se baza pe seturi de date pre-etichetate. Această abordare permite modelului să exploreze un spațiu vast cu soluții, descoperind modele și strategii unice de raționament care s -ar putea să nu fie prezente în datele de instruire supravegheate [1] [2] [4]. Prin stimularea raționamentului în timpul procesului RL, Deepseek R1 poate genera lanțuri coerente de gândire și se poate angaja în autoverificare și reflecție, care sunt critice pentru rezolvarea complexă a problemelor [4].

Proces de instruire în mai multe etape

Pregătirea Deepseek R1 este împărțită în mai multe faze:

1. Faza de pornire la rece: Modelul începe cu o cantitate mică de date supravegheate de înaltă calitate colectate de la predecesorul său, Deepseek R1-Zero. Această fază ajută la atenuarea problemelor precum lizibilitatea slabă și amestecarea limbajului care au fost observate la modelele anterioare [1] [2].

2. RL orientat către raționament: În urma începerii la rece, modelul suferă o pregătire extinsă orientată către RL orientată spre raționament. Această fază se concentrează pe îmbunătățirea capacităților în domenii specifice precum codificarea, matematica și logica, unde soluțiile clare pot fi definite folosind reguli de recompensă [3] [4].

3. Reglarea fină cu date noi: după instruirea inițială RL, datele noi supravegheate sunt generate prin eșantionare de respingere pe baza punctului de control RL. Aceste date sunt apoi utilizate pentru reglarea ulterioară, permițând modelului să-și perfecționeze abilitățile de raționament în diferite sarcini [1] [2].

Rezultatele performanței

Rezultatul acestui proces riguros de antrenament este un model care atinge niveluri de performanță comparabile cu modelele de frunte, cum ar fi OPENAI O1-1217 a sarcinilor de raționament. De exemplu, Deepseek R1 a demonstrat îmbunătățiri semnificative ale valorii de referință, ratele de trecere crescând de la 15,6% la 71% la sarcinile AIME 2024, prezentând capacitățile sale de raționament îmbunătățite [1] [2].

În rezumat, abordarea de învățare de consolidare a Deepseek R1 nu numai că favorizează raționamentul independent, dar îmbunătățește eficiența de rezolvare a problemelor prin minimizarea bazei pe seturi de date extinse supravegheate. Acest lucru îl poziționează ca un instrument puternic în peisajul modelelor de limbaj mare.

Citări:
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgeech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
[4] https://arbisoft.com/blogs/deep-seek-r1-the-chinese-AI-POWERHOUSE OUTPERFORFORMING-OPEN-AI-S-O1-AT-95-UNS-COST
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it-it