Ryhmän suhteellinen politiikan optimointi (GRPO) DeepSeek R1: llä: AI: n päättelyn parantaminen

Mikä rooli ryhmän suhteellisen politiikan optimoinnin (GRPO) algoritmilla on Deepseek R1: n koulutuksessa

Ryhmän suhteellisen politiikan optimointi (GRPO) -algoritmilla on kriittinen rooli Deepseek R1: n koulutuksessa, mikä parantaa sen päättelymahdollisuuksia virtaviivaisen vahvistusoppimisen (RL) lähestymistavan avulla.

GRPO: sta

GRPO on uusi vahvistusoppimisalgoritmi, joka muuttaa perinteisiä menetelmiä, kuten proksimaalista politiikan optimointia (PPO), poistamalla erillisen arvotoimintomallin tarve, joka yksinkertaistaa koulutusprosessia ja vähentää muistin käyttöä. Sen sijaan, että luottaisi kriitikkomalliin tulosten arvioimiseksi, GRPO käyttää tilastollisia vertailuja useiden tuotettujen tulosten välillä suorituskyvyn arvioimiseksi suhteessa ryhmän keskiarvoihin [1] [3]. Tämän menetelmän avulla malli voi oppia tehokkaammin keskittymällä ryhmäpohjaisiin eduihin eikä yksilöllisten lähtöarviointeihin.

Deepseek R1: ssä

Deepseek R1: n yhteydessä GRPO helpottaa laajamittaista vahvistusoppimista ilman tarvetta valvottua hienosäätöä. Malli tuottaa useita ehdokasratkaisuja jokaiselle kehotukselle ja laskee palkkiot niiden tarkkuuden ja määritettyjen muotojen noudattamisen perusteella. Tämä sääntöpohjainen palkitsemisjärjestelmä varmistaa, että koulutusprosessi on sekä resurssitehokas että skaalautuva [2] [4]. Ohjatun datan puuttuminen antaa DeepSek R1: lle mahdollisuuden kehittää itsenäisesti päättelykykyä vuorovaikutuksella sen ympäristön kanssa, mikä johtaa innovatiiviseen ongelmanratkaisukäyttäytymiseen [6] [7].

GRPO: n tärkeimmät edut Deepseek R1: ssä

- Kriitikkomallin eliminointi: Poistamalla kriitikko GRPO vähentää laskennallisia kustannuksia ja monimutkaisuutta, joka liittyy kahden erillisen hermoston (näyttelijä ja kriitikko) ylläpitämiseen, mikä on tyypillistä perinteisissä RL -asetuksissa [3] [9].
- Ryhmäpohjainen palkitsemislaskelma: Algoritmi käyttää lähtöryhmän keskimääräistä suorituskykyä etuna etujen laskemiseen, mikä vastaa paremmin palkitsemismallikoulutuksen luonnetta, joka sisältää usein useita tuloksia yhdelle syötteelle [1] [5].
- Parannettu tehokkuus: Virtaviivainen prosessi ei vain parantaa oppimisen tehokkuutta, vaan antaa myös Deepseek R1: n saavuttaa suorituskykyä, joka on verrattavissa suurempiin malleihin, samalla kun se on huomattavasti halvempi kouluttaa ja toimia [2] [6].

Yhteenvetona voidaan todeta, että GRPO on olennainen osa Deepseek R1: n koulutusta, jonka avulla se voi oppia perustelut tehokkaamman ja skaalautuvamman vahvistuksen oppimiskehyksen avulla. Tämä innovaatio asettaa Deepseek R1: n kilpailukykyiseksi malliksi monimutkaisissa päättelytehtävissä. Kilpailu vahvisti AI -järjestelmät edistäen samalla saatavuutta AI -kehityksessä.

Viittaukset:
[1] https://www.philschmid.de/deeptseek-r1
[2] https://composio.dev/blog/notes-on-he-new-deepseek-r1/
.
[4] https://myedgetech.com/deepseek-r1-r//
[5] https://aiipapersacademy.com/deepseek-r1/
.
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
.