Grupės santykinė politikos optimizavimas (GRPO) „Deepseek R1“: AI samprotavimo patobulinimas

Kokį vaidmenį grupės santykinės politikos optimizavimo (GRPO) algoritmas vaidina „Deepseeek R1“ mokymuose

Grupės santykinės politikos optimizavimo (GRPO) algoritmas vaidina lemiamą vaidmenį mokant „Deepseeek R1“, padidindamas jo samprotavimo galimybes įgyvendinant supaprastinto armatūros mokymosi (RL) metodą.

GRPO apžvalga

GRPO yra naujas stiprinimo mokymosi algoritmas, kuris keičia tradicinius metodus, tokius kaip proksimalinė politikos optimizavimas (PPO), pašalindamas poreikį atskirai vertės funkcijos modeliui, kuris supaprastina mokymo procesą ir sumažina atminties naudojimą. Užuot pasikliaudamas kritiko modeliu įvertinti rezultatą, GRPO naudoja statistinius palyginimus tarp kelių sugeneruotų rezultatų, kad įvertintų našumą, palyginti su grupės vidurkiais [1] [3]. Šis metodas leidžia modeliui efektyviau mokytis, daugiausia dėmesio skiriant grupėms pagrįstiems pranašumams, o ne individualiems išvesties vertinimams.

mokymo procesas „Deepseek R1“

Atsižvelgiant į „Deepseek R1“, GRPO palengvina didelio masto stiprinimo mokymąsi, nereikia prižiūrimų derinimo. Modelis sukuria kelis kandidatų sprendimus kiekvienam raginimui ir apskaičiuoja apdovanojimus, atsižvelgiant į jų tikslumą ir nustatytų formatų laikymąsi. Ši taisyklių pagrindu pagrįsta apdovanojimo sistema užtikrina, kad mokymo procesas yra tiek efektyvus išteklius, tiek keičiamas [2] [4]. Prižiūrimų duomenų nebuvimas leidžia „Deepseek R1“ autonomiškai plėtoti samprotavimo galimybes sąveikaudamas su savo aplinka, todėl atsiranda novatoriškas problemų sprendimo elgesys [6] [7].

pagrindiniai GRPO pranašumai „Deepseek R1“

- Kritiko modelio pašalinimas: pašalindamas kritiką, GRPO sumažina skaičiavimo išlaidas ir sudėtingumą, susijusį su dviejų atskirų nervų tinklų (aktorių ir kritikų) palaikymu, kuris būdingas tradicinėse RL sąrankose [3] [9].
- Grupės apdovanojimų skaičiavimas: algoritmas naudoja vidutinį išėjimų grupės našumą kaip pradinį pranašumų apskaičiavimo pagrindą, geriau suderindamas su apdovanojimo modelio mokymo pobūdžiu, kuris dažnai apima kelis įvesties išėjimus [1] [5].
- Patobulintas efektyvumas: supaprastintas procesas ne tik padidina mokymosi efektyvumą, bet ir leidžia „Deepseek R1“ pasiekti našumą, panašų į didesnius modelius, tuo pačiu žymiai pigiau treniruotis ir veikti [2] [6].

Apibendrinant galima pasakyti, kad GRPO yra neatsiejama „Deepseek R1“ mokymo dalis, leidžianti jai efektyviai išmokti samprotavimo įgūdžių per efektyvesnę ir keičiamą armatūros mokymosi sistemą. Ši naujovė „Deepseek R1“ apibūdina kaip konkurencinį modelį atliekant sudėtingas samprotavimo užduotis, konkuruojant sukūrė AI sistemas, skatinant prieinamumą AI plėtrai.

Citatos:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutioning-ai-open-ource-reasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-ource-ai-aits-ming-waves-on-a-budget-13ik