Grupp Relative Policy Optimization (GRPO) i Deepseek R1: Förbättra AI -resonemang

Vilken roll spelar gruppen Relative Policy Optimization (GRPO) algoritm i Deepseek R1: s utbildning

Grupp Relative Policy Optimization (GRPO) -algoritmen spelar en kritisk roll i utbildningen av Deepseek R1, vilket förbättrar dess resonemangsförmåga genom en strömlinjeformad förstärkningsinlärning (RL).

Översikt över GRPO

GRPO är en ny armering av förstärkningslärande som modifierar traditionella metoder som proximal policyoptimering (PPO) genom att eliminera behovet av en separat värdefunktionsmodell, vilket förenklar träningsprocessen och minskar minnesanvändningen. Istället för att förlita sig på en kritikermodell för att utvärdera utgångar använder GRPO statistiska jämförelser mellan flera genererade utgångar för att bedöma prestanda i förhållande till gruppgenomsnitt [1] [3]. Denna metod gör det möjligt för modellen att lära sig mer effektivt genom att fokusera på gruppbaserade fördelar snarare än individuella utvärderingar.

Träningsprocess i Deepseek R1

I samband med Deepseek R1 underlättar GRPO storskalig förstärkningslärande utan behov av övervakad finjustering. Modellen genererar flera kandidatlösningar för varje snabb och beräknar belöningar baserat på deras noggrannhet och anslutning till specificerade format. Detta regelbaserade belöningssystem säkerställer att utbildningsprocessen är både resurseffektiv och skalbar [2] [4]. Frånvaron av övervakade data gör det möjligt för Deepseek R1 att autonomt utveckla resonemangsförmågan genom interaktion med sin miljö, vilket leder till innovativa problemlösningsbeteenden [6] [7].

Nyckelfördelar med GRPO i Deepseek R1

- Eliminering av kritikermodellen: Genom att ta bort kritikern minskar GRPO beräkningskostnader och komplexitet förknippade med att upprätthålla två separata neurala nätverk (skådespelare och kritiker), vilket är typiskt i traditionella RL -inställningar [3] [9].
- Gruppbaserad belöningsberäkning: Algoritmen använder den genomsnittliga prestandan för en grupp utgångar som en baslinje för att beräkna fördelar och anpassa sig bättre till arten av belöningsmodellträning som ofta involverar flera utgångar för en enda ingång [1] [5].
- Förbättrad effektivitet: Den strömlinjeformade processen förbättrar inte bara inlärningseffektiviteten utan gör det också möjligt för Deepseek R1 att uppnå prestanda som är jämförbara med större modeller samtidigt som det är betydligt billigare att träna och driva [2] [6].

Sammanfattningsvis är GRPO integrerad i Deepseek R1: s träning, vilket gör det möjligt för den att effektivt lära sig resonemang genom en mer effektiv och skalbar förstärkning av inlärningsram. Denna innovation positionerar DeepSeek R1 som en konkurrensmodell i komplexa resonemangsuppgifter och konkurrerar med etablerade AI -system samtidigt som man främjar tillgänglighet i AI -utvecklingen.

Citeringar:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-deepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-reasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
]