Group Relative Policy Optimization (GRPO) in Deepseek R1: Verbetering van AI -redeneren

Welke rol speelt het groepsrelatieve beleidsoptimalisatie (GRPO) -algoritme in Deepseek R1's training

Het algoritme van het groepsrelatieve beleidsoptimalisatie (GRPO) speelt een cruciale rol in de training van Deepseek R1, waardoor de redeneermogelijkheden worden verbeterd door middel van een gestroomlijnde versterking van de versterking (RL).

Overzicht van GRPO

GRPO is een nieuw leerling -algoritme voor versterking dat traditionele methoden zoals Proximal Policy Optimization (PPO) wijzigt door de noodzaak van een afzonderlijk waardefunctiemodel te elimineren, dat het trainingsproces vereenvoudigt en het geheugenverbruik vermindert. In plaats van te vertrouwen op een criticale model om output te evalueren, gebruikt GRPO statistische vergelijkingen tussen meerdere gegenereerde uitgangen om de prestaties ten opzichte van groepsgemiddelden te beoordelen [1] [3]. Met deze methode kan het model efficiënter leren door zich te concentreren op groepsgebaseerde voordelen in plaats van individuele uitvoerevaluaties.

Trainingsproces in Deepseek R1

In de context van Deepseek R1 faciliteert GRPO grootschalige versterkingsleren zonder de noodzaak van gecontroleerde verfijningen. Het model genereert meerdere kandidaatoplossingen voor elke prompt en berekent beloningen op basis van hun nauwkeurigheid en naleving van gespecificeerde formaten. Dit op regels gebaseerde beloningssysteem zorgt ervoor dat het trainingsproces zowel resource-efficiënt als schaalbaar is [2] [4]. De afwezigheid van begeleide gegevens stelt Deepseek R1 in staat om autonoom redeneermogelijkheden te ontwikkelen door interactie met zijn omgeving, wat leidt tot innovatief probleemoplossend gedrag [6] [7].

Belangrijkste voordelen van GRPO in Deepseek R1

- Eliminatie van het criticusmodel: door de criticus te verwijderen, vermindert GRPO de rekenkosten en complexiteit in verband met het handhaven van twee afzonderlijke neurale netwerken (acteur en criticus), die typisch is in traditionele RL -opstellingen [3] [9].
- Groepsgebaseerde beloningsberekening: het algoritme maakt gebruik van de gemiddelde prestaties van een groep uitgangen als basislijn voor het berekenen van voordelen, beter afgestemd op de aard van beloningsmodeltraining die vaak meerdere uitgangen omvat voor een enkele invoer [1] [5].
- Verbeterde efficiëntie: het gestroomlijnde proces verbetert niet alleen de leerefficiëntie, maar maakt ook deepseek R1 mogelijk om prestaties te bereiken die vergelijkbaar zijn met grotere modellen, terwijl ze aanzienlijk goedkoper zijn om te trainen en te werken [2] [6].

Samenvattend is GRPO een integraal onderdeel van de training van DeepSeek R1, waardoor het redeneervaardigheden effectief kan leren door een efficiënter en schaalbaarder leerkader voor versterking. Deze innovatie positioneert Deepseek R1 als een competitief model in complexe redeneringstaken, waardoor de vastgestelde AI -systemen worden gevolgd terwijl de toegankelijkheid in AI -ontwikkeling wordt bevorderd.

Citaten:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-Deepseek-R1-Model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-radening-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-golven-on-a-budget-13ik