DeepSeek R1: Revolutionering af ræsonnement med forstærkningslæring

Hvordan forbedrer DeepSeek R1s forstærkningslæringsmetode dens ræsonnementsfunktioner

Deepseek R1 forbedrer sine ræsonnementsfunktioner gennem en ny forstærkningslæring (RL) -tilgang, der afviger fra traditionelle overvågede finjusteringsmetoder (SFT). Denne innovative strategi giver modellen mulighed for at udvikle ræsonnementsevner uafhængigt og effektivt.

Forstærkning af læringsrammer

Deepseek R1 anvender gruppe relative politiske optimering (GRPO), en regelbaseret RL-ramme, der gør det muligt for modellen at lære af prøve og fejl uden at stole på forudmærkede datasæt. Denne tilgang giver modellen mulighed for at udforske et stort løsningsrum og opdage unikke ræsonnementsmønstre og strategier, der muligvis ikke er til stede i overvågede træningsdata [1] [2] [4]. Ved at incitamere ræsonnement under RL-processen kan Deepseek R1 generere sammenhængende tanke kæder og deltage i selvverificering og refleksion, som er kritiske for kompleks problemløsning [4].

Multi-trins træningsproces

Uddannelsen af dybseek R1 er opdelt i flere faser:

1. kold startfase: Modellen begynder med en lille mængde af høj kvalitet overvågede data indsamlet fra sin forgænger, Deepseek R1-nul. Denne fase hjælper med at afbøde problemer såsom dårlig læsbarhed og sprogblanding, der blev observeret i tidligere modeller [1] [2].

2. Ræsonnementsorienteret RL: Efter den kolde start gennemgår modellen omfattende ræsonnementsorienteret RL-træning. Denne fase fokuserer på at forbedre kapaciteterne på specifikke domæner som kodning, matematik og logik, hvor klare løsninger kan defineres ved hjælp af belønningsregler [3] [4].

3. Finjustering med nye data: Efter indledende RL-træning genereres nye overvågede data gennem afvisningsprøvetagning baseret på RL-kontrolpunktet. Disse data bruges derefter til yderligere finjustering, hvilket gør det muligt for modellen at forfine sine ræsonnementsevner på tværs af forskellige opgaver [1] [2].

Performance -resultater

Resultatet af denne strenge træningsproces er en model, der opnår præstationsniveauer, der kan sammenlignes med førende modeller som Openais O1-1217 på ræsonnementsopgaver. For eksempel demonstrerede DeepSeek R1 signifikante forbedringer i benchmarks, hvor pass -satserne steg fra 15,6% til 71% på AIME 2024 -opgaver, hvilket viser sine forbedrede ræsonnementsfunktioner [1] [2].

Sammenfattende fremmer Deepseek R1s forstærkningslæringsmetode ikke kun uafhængig ræsonnement, men forbedrer også problemløsningseffektiviteten ved at minimere afhængighed af omfattende overvågede datasæt. Dette placerer det som et kraftfuldt værktøj i landskabet med store sprogmodeller.

Citater:
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
)
[5] https://github.com/deepseek-i/deepseek-r1/actions
)
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training- af-deepseek-r1-og-veje-til-brug-it