Ce rol joacă algoritmul de optimizare a politicii relative (GRPO) din grup în formarea Deepseek R1

Algoritmul de optimizare a politicii relative (GRPO) de grup joacă un rol critic în formarea Deepseek R1, îmbunătățindu -și capacitățile de raționament printr -o abordare simplificată de învățare de consolidare (RL).

Prezentare generală a GRPO

GRPO este un nou algoritm de învățare de consolidare care modifică metodele tradiționale precum optimizarea politicilor proximale (PPO) prin eliminarea necesității unui model de funcție de valoare separată, care simplifică procesul de instruire și reduce consumul de memorie. În loc să se bazeze pe un model critic pentru a evalua rezultatele, GRPO utilizează comparații statistice între mai multe rezultate generate pentru a evalua performanța în raport cu mediile de grup [1] [3]. Această metodă permite modelului să învețe mai eficient, concentrându-se pe avantaje bazate pe grup, mai degrabă decât pe evaluări individuale de ieșire.

Procesul de instruire în Deepseek R1

În contextul Deepseek R1, GRPO facilitează învățarea de întărire la scară largă, fără a fi nevoie de reglare fină supravegheată. Modelul generează mai multe soluții candidate pentru fiecare prompt și calculează recompense pe baza exactității și respectării lor la formate specificate. Acest sistem de recompense bazat pe reguli asigură că procesul de instruire este atât eficient de resurse, cât și scalabil [2] [4]. Absența datelor supravegheate permite Deepseek R1 să dezvolte în mod autonom capacități de raționament prin interacțiunea cu mediul său, ceea ce duce la comportamente inovatoare de rezolvare a problemelor [6] [7].

Avantajele cheie ale GRPO în Deepseek R1

- Eliminarea modelului critic: prin eliminarea criticului, GRPO reduce costurile de calcul și complexitatea asociate cu menținerea a două rețele neuronale separate (actor și critic), ceea ce este tipic în configurațiile tradiționale RL [3] [9].
- Calculul recompenselor bazat pe grup: Algoritmul folosește performanța medie a unui grup de rezultate ca bază pentru calcularea avantajelor, alinându-se mai bine la natura antrenamentului modelului de recompensă care implică adesea rezultate multiple pentru o singură intrare [1] [5].
- Eficiență îmbunătățită: Procesul simplificat nu numai că îmbunătățește eficiența învățării, dar permite și Deepseek R1 să obțină performanțe comparabile cu modelele mai mari, fiind în același timp mai ieftin să se antreneze și să funcționeze [2] [6].

În rezumat, GRPO este integral pentru pregătirea Deepseek R1, permițându -i să învețe în mod eficient abilitățile de raționament printr -un cadru de învățare de consolidare mai eficient și mai scalabil. Această inovație poziționează Deepseek R1 ca model competitiv în sarcini de raționament complexe, rivalând sisteme AI stabilite în timp ce promovează accesibilitatea în dezvoltarea AI.

Citări:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-eepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgeech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutioning-AI-Open-Source-Reasoning-20-Ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-aking-waves-on-a-budget-13ik
Cei