Csoportos relatív házirend -optimalizálás (GRPO) a DeepSeek R1 -ben: AI érvelés javítása

Milyen szerepet játszik a csoport relatív politikai optimalizálása (GRPO) algoritmus a DeepSeek R1 képzésében

A csoport relatív politikai optimalizálása (GRPO) algoritmus kritikus szerepet játszik a DeepSeek R1 képzésében, javítva érvelési képességeit egy korszerűsített megerősítési tanulási (RL) megközelítés révén.

A GRPO áttekintése

A GRPO egy új megerősítési tanulási algoritmus, amely módosítja a hagyományos módszereket, például a proximális politika optimalizálását (PPO) azáltal, hogy kiküszöböli a külön értékfüggvénymodell szükségességét, amely egyszerűsíti az edzési folyamatot és csökkenti a memória használatát. Ahelyett, hogy egy kritikus modellre támaszkodna a kimenetek értékelésére, a GRPO statisztikai összehasonlításokat alkalmaz a több generált kimenet között a teljesítmény értékeléséhez a csoport átlagához viszonyítva [1] [3]. Ez a módszer lehetővé teszi a modell számára, hogy hatékonyabban megtanulja, ha a csoportos alapú előnyökre összpontosít, nem pedig az egyéni kimeneti értékelésekre.

Képzési folyamat a DeepSeek R1 -ben

A DeepSeek R1 összefüggésében a GRPO megkönnyíti a nagyszabású megerősítés tanulását anélkül, hogy felügyelt finomhangolásra lenne szükség. A modell több jelölt megoldást generál minden egyes utasításhoz, és a pontosságuk és a megadott formátumok betartása alapján kiszámítja a jutalmakat. Ez a szabályalapú jutalmazási rendszer biztosítja, hogy az edzési folyamat mind erőforrás-hatékonyságú, mind méretezhető legyen [2] [4]. A felügyelt adatok hiánya lehetővé teszi a DeepSeek R1 számára, hogy a környezettel való interakció révén önállóan fejlesszék az érvelési képességeket, és innovatív problémamegoldó viselkedéshez vezetnek [6] [7].

A GRPO legfontosabb előnyei a DeepSeek R1 -ben

- A kritikus modell kiküszöbölése: A kritikus eltávolításával a GRPO csökkenti a számítási költségeket és a két különálló neurális hálózat (színész és kritikus) fenntartásához kapcsolódó összetettséget, amely jellemző a hagyományos RL -beállításokban [3] [9].
- Csoportos jutalomszámítás: Az algoritmus az outputok egy csoportjának átlagos teljesítményét használja alapvonalaként az előnyök kiszámításához, jobban igazítva a jutalommodell-edzés jellegét, amely gyakran több kimenetet foglal magában egyetlen bemenethez [1] [5].
- Javított hatékonyság: Az egyszerűsített folyamat nemcsak javítja a tanulási hatékonyságot, hanem lehetővé teszi a DeepSeek R1 számára is, hogy a nagyobb modellekkel összehasonlítható teljesítmény elérését is elérjék, miközben jelentősen olcsóbb a képzés és működtetés [2] [6].

Összefoglalva: a GRPO szerves része a DeepSeek R1 képzésének, lehetővé téve az érvelési készségek hatékony megtanulását egy hatékonyabb és skálázhatóbb megerősítési tanulási kereten keresztül. Ez az innováció az R1 DeepSeek versenyképes modelljét állítja be a komplex érvelési feladatokban, és a létrehozott AI rendszereket versengte, miközben elősegíti az AI fejlesztéshez való hozzáférhetőséget.

Idézetek:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-ne-neepseek-r1/
[3] https://dev.to/aws/takeaways-from-theepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-a-open-source-deason-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thts-making-on-on-a-budget-13ik