Skupinska relativna optimizacija politike (GRPO) v Deepseek R1: Izboljšanje AI sklepanja

Kakšno vlogo ima algoritem relativne politike (GRPO) na treningu Deepseeka R1

Algoritem relativne politike (GRPO) ima ključno vlogo pri usposabljanju Deepseek R1, kar izboljšuje svoje sposobnosti sklepanja s pristopom racionaliziranega učnega učnega učenje (RL).

Pregled GRPO

GRPO je nov algoritem za učenje okrepitve, ki spreminja tradicionalne metode, kot je proksimalna optimizacija politike (PPO) z odpravljanjem potrebe po modelu ločene vrednosti, ki poenostavi proces usposabljanja in zmanjšuje porabo pomnilnika. Namesto da se za oceno rezultatov zanaša na kritični model, GRPO uporablja statistične primerjave med več ustvarjenimi izhodi za oceno uspešnosti glede na povprečje skupin [1] [3]. Ta metoda omogoča modelu, da se učinkoviteje uči, tako da se osredotoča na skupinske prednosti in ne na posamezne ocene izhoda.

Proces usposabljanja v Deepseeku R1

V okviru Deepseek R1 GRPO olajša veliko učenje okrepitve, ne da bi bilo treba nadzorovati natančno nastavitev. Model ustvari več kandidatnih rešitev za vsak poziv in izračuna nagrade na podlagi njihove natančnosti in spoštovanja določenih formatov. Ta sistem nagrajevanja, ki temelji na pravilih, zagotavlja, da je postopek usposabljanja učinkovit in razširljiv [2] [4]. Odsotnost nadzorovanih podatkov omogoča, da Deepseek R1 samostojno razvija zmogljivosti sklepanja z interakcijo z njegovim okoljem, kar vodi do inovativnega vedenja, ki reševanje problemov [6] [7].

Ključne prednosti GRPO v Deepseeku R1

- Odprava kritičnega modela: GRPO z odstranitvijo kritika zmanjšuje računske stroške in zapletenost, povezano z vzdrževanjem dveh ločenih nevronskih omrežij (akter in kritik), kar je značilno za tradicionalne nastavitve RL [3] [9].
- Izračun nagrad, ki temelji na skupini: Algoritem uporablja povprečno delovanje skupine izhodov kot izhodiščno vrednost za izračun prednosti, ki bolje uskladi z naravo vadbe modela nagrad, ki pogosto vključuje več izhodov za en vhod [1] [5].
- Izboljšana učinkovitost: Poenostavljen proces ne samo, da poveča učinkovitost učenja, ampak omogoča tudi Deepseek R1, da doseže uspešnost, ki je primerljiva z večjimi modeli, hkrati pa je bistveno cenejša za usposabljanje in delovanje [2] [6].

Če povzamemo, je GRPO sestavni del usposabljanja Deepseek R1, ki mu omogoča učinkovito učenje veščin sklepanja z učinkovitejšim in razširljivim okvirom za okrepitev. Ta inovacija postavlja Deepseek R1 kot konkurenčen model pri zapletenih nalogah sklepanja, pri čemer tekmuje uveljavljene sisteme AI, hkrati pa spodbuja dostopnost pri razvoju AI.

Navedbe:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-reepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgetHech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolution-ai-open-source-reasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948V1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-the-open-source-ai-thats-making-waves-on-a-budget-13ik