Gruppe Relative Policy Optimization (GRPO) i DeepSeek R1: Forbedring af AI -ræsonnement

Hvilken rolle spiller Group Relative Policy Optimization (GRPO) algoritmen i Deepseek R1's træning

Gruppens relative politiske optimering (GRPO) -algoritme spiller en kritisk rolle i uddannelsen af Deepseek R1, hvilket forbedrer dens ræsonnementsevne gennem en strømlinet forstærkningslæring (RL) tilgang.

Oversigt over GRPO

GRPO er en ny forstærkende læringsalgoritme, der ændrer traditionelle metoder som proksimal politikoptimering (PPO) ved at eliminere behovet for en separat værdifunktionsmodel, der forenkler træningsprocessen og reducerer hukommelsesforbruget. I stedet for at stole på en kritikmodel for at evaluere udgange, bruger GRPO statistiske sammenligninger mellem flere genererede output til at vurdere ydeevne i forhold til gruppe gennemsnit [1] [3]. Denne metode giver modellen mulighed for at lære mere effektivt ved at fokusere på gruppebaserede fordele snarere end individuelle outputevalueringer.

Træningsproces i Deepseek R1

I forbindelse med dybseek R1 letter GRPO storstilet forstærkningslæring uden behov for overvåget finjustering. Modellen genererer flere kandidatløsninger for hver prompt og beregner belønninger baseret på deres nøjagtighed og overholdelse af specificerede formater. Dette regelbaserede belønningssystem sikrer, at træningsprocessen er både ressourceeffektiv og skalerbar [2] [4]. Fraværet af overvågede data giver Deepseek R1 mulighed for autonomt at udvikle ræsonnementsfunktioner gennem interaktion med dets miljø, hvilket fører til innovativ problemløsningsadfærd [6] [7].

Nøglefordele ved GRPO i Deepseek R1

- Eliminering af kritikermodellen: Ved at fjerne kritikeren reducerer GRPO beregningsomkostninger og kompleksitet forbundet med at opretholde to separate neurale netværk (skuespiller og kritiker), som er typisk i traditionelle RL -opsætninger [3] [9].
- Gruppebaseret belønningsberegning: Algoritmen bruger den gennemsnitlige ydelse af en gruppe output som en basislinje til beregning af fordele, der er bedre tilpasset arten af belønningsmodeltræning, der ofte involverer flere output til et enkelt input [1] [5].
- Forbedret effektivitet: Den strømlinede proces forbedrer ikke kun indlæringseffektiviteten, men giver også Deepseek R1 mulighed for at opnå ydeevne, der kan sammenlignes med større modeller, mens de er markant billigere at træne og operere [2] [6].

Sammenfattende er GRPO integreret i Deepseek R1's træning, hvilket gør det muligt for den effektivt at lære ræsonnementsevner gennem en mere effektiv og skalerbar rammer for forstærkning. Denne innovation positionerer dybseek R1 som en konkurrencedygtig model i komplekse ræsonnementsopgaver, der konkurrerede etablerede AI -systemer, mens de fremmede tilgængelighed i AI -udvikling.

Citater:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-New DeepSeek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-i-open-source-reasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-i-thats-making-bølger-on-abudget-13iK