Millist rolli mängib grupi suhteline poliitika optimeerimine (GRPO) algoritm Deepseek R1 koolitusel

GRPO ülevaade

GRPO on uudne tugevdusõppe algoritm, mis muudab traditsioonilisi meetodeid nagu proksimaalne poliitika optimeerimine (PPO), välistades vajaduse eraldi väärtuse funktsiooni mudeli järele, mis lihtsustab treeningprotsessi ja vähendab mälu kasutamist. Selle asemel, et tugineda väljundite hindamiseks kriitikamudelile, kasutab GRPO statistilisi võrdlusi mitme genereeritud väljundi vahel, et hinnata jõudlust rühma keskmiste suhtes [1] [3]. See meetod võimaldab mudelil tõhusamalt õppida, keskendudes pigem rühmapõhistele eelistele kui individuaalsetele väljundhinnangutele.

Treeningprotsess Deepseek R1 -s

Deepseek R1 kontekstis hõlbustab GRPO suuremahulist tugevdamise õppimist ilma vajaduseta juhendatud peenhäälestamise järele. Mudel genereerib iga kiire jaoks mitu kandidaatlahendust ja arvutab preemiad vastavalt nende täpsusele ja järgimisele määratud vormingutele. See reeglipõhine tasustamissüsteem tagab, et koolitusprotsess on nii ressursside tõhus kui ka skaleeritav [2] [4]. Juhendatud andmete puudumine võimaldab DeepSEEK R1-l autonoomselt arendada mõttekäike oma keskkonnaga suhtlemise kaudu, mis viib uuendusliku probleemide lahendamise käitumiseni [6] [7].

GRPO peamised eelised Deepseek R1 -s

- Kriitikumudeli kõrvaldamine: kriitiku eemaldamisega vähendab GRPO arvutuslikke kulusid ja keerukust, mis on seotud kahe eraldi närvivõrku (näitleja ja kriitik) säilitamisega, mis on tüüpiline traditsioonilistes RL -i seadistustes [3] [9].
- Grupipõhine preemiaarvestus: algoritm kasutab väljundite rühma keskmist jõudlust eeliste arvutamisel lähtejoonena, vastavusse paremini preemiamudeli treenimise olemusega, mis sageli hõlmab ühe sisendi jaoks mitut väljundit [1] [5].
- Täiustatud tõhusus: sujuv protsess mitte ainult ei suurenda õppimise tõhusust, vaid võimaldab ka Deepseek R1 -l saavutada jõudlust, mis on võrreldav suuremate mudelitega, olles samal ajal märkimisväärselt odavam treenida ja tegutseda [2] [6].

Kokkuvõtlikult võib öelda, et GRPO on Deepseek R1 koolituse lahutamatu osa, võimaldades sellel tõhusama ja skaleeritava tugevdava õppe raamistiku abil arutluskäiku tõhusalt õppida. See innovatsioon positsioneerib Deepseek R1 kui konkurentsivõimelist mudelit keerukates mõttekäikudes, konkureerides väljakujunenud AI -süsteemidega, edendades samal ajal juurdepääsetavust AI arengus.

Tsitaadid:
[1] https://www.philschmid.de/deepseek-r1
]
]
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
]
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
]