Gruppe Relativ policyoptimalisering (GRPO) i DeepSeek R1: Forbedring av AI -resonnement

Hvilken rolle spiller gruppen Relative Policy Optimization (GRPO) algoritme i DeepSeek R1s trening

Gruppen Relative Policy Optimization (GRPO) -algoritmen spiller en kritisk rolle i opplæringen av DeepSeek R1, noe som forbedrer resonnementets evner gjennom en strømlinjeformet forsterkningslæring (RL) tilnærming.

Oversikt over GRPO

GRPO er en ny forsterkningslæringsalgoritme som endrer tradisjonelle metoder som proksimal politikkoptimalisering (PPO) ved å eliminere behovet for en egen verdifunksjonsmodell, som forenkler treningsprosessen og reduserer hukommelsesbruken. I stedet for å stole på en kritikermodell for å evaluere utganger, bruker GRPO statistiske sammenligninger mellom flere genererte utganger for å vurdere ytelse i forhold til gruppegjennomsnitt [1] [3]. Denne metoden gjør at modellen kan lære mer effektivt ved å fokusere på gruppebaserte fordeler snarere enn individuelle utgangsevalueringer.

Treningsprosess i DeepSeek R1

I sammenheng med DeepSeek R1 letter GRPO storskala forsterkningslæring uten behov for overvåket finjustering. Modellen genererer flere kandidatløsninger for hver ledetekst og beregner belønninger basert på deres nøyaktighet og overholdelse av spesifiserte formater. Dette regelbaserte belønningssystemet sikrer at treningsprosessen er både ressurseffektiv og skalerbar [2] [4]. Fraværet av overvåkede data gjør at DeepSeek R1 kan utvikle resonneringsfunksjoner autonomt gjennom interaksjon med omgivelsene, noe som fører til nyskapende problemløsende atferd [6] [7].

Sentrale fordeler med GRPO i DeepSeek R1

- Eliminering av kritikermodellen: Ved å fjerne kritikeren reduserer GRPO beregningskostnader og kompleksitet forbundet med å opprettholde to separate nevrale nettverk (skuespiller og kritiker), som er typisk i tradisjonelle RL -oppsett [3] [9].
- Gruppebasert belønningsberegning: Algoritmen bruker den gjennomsnittlige ytelsen til en gruppe utganger som en grunnlinje for beregning av fordeler, og samsvarer bedre med arten av belønningsmodelltrening som ofte involverer flere utganger for en enkelt inngang [1] [5].
- Forbedret effektivitet: Den strømlinjeformede prosessen forbedrer ikke bare læringseffektiviteten, men lar også DeepSeek R1 oppnå ytelse som kan sammenlignes med større modeller, samtidig som det er betydelig billigere å trene og operere [2] [6].

Oppsummert er GRPO integrert i DeepSeek R1s trening, slik at den effektivt kan lære seg resonneringsevner gjennom et mer effektivt og skalerbart forsterkningslæring. Denne innovasjonen posisjonerer DeepSeek R1 som en konkurransedyktig modell i komplekse resonnementoppgaver, og konkurrerer med etablerte AI -systemer mens du fremmer tilgjengeligheten i AI -utvikling.

Sitasjoner:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-depseek-r1/
[3] https://dev.to/aws/takaways-from-thepseek-r1-model-2dli
[4] https://myedettech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-reasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-making-waves-on-a-budget-13ik