DeepSeek R1: Revolusjonerer resonnement med forsterkningslæring

Hvordan forbedrer DeepSeek R1s forsterkningslæring tilnærming sin resonnementskapasitet

DeepSeek R1 forbedrer sine resonnementsevner gjennom en ny forsterkningslæring (RL) -tilnærming som avviker fra tradisjonelle veiledede finjusteringsmetoder (SFT). Denne innovative strategien gjør at modellen kan utvikle resonneringsevner uavhengig og effektivt.

Forsterkningslæringsrammeverk

DeepSeek R1 benytter Group Relative Policy Optimization (GRPO), et regelbasert RL-rammeverk som gjør det mulig for modellen å lære av prøving og feiling uten å stole på forhåndsmerkede datasett. Denne tilnærmingen gjør at modellen kan utforske et stort løsningsrom, og oppdage unike resonnementmønstre og strategier som kanskje ikke er til stede i overvåkede treningsdata [1] [2] [4]. Ved å stimulere resonnement under RL-prosessen, kan DeepSeek R1 generere sammenhengende tanker og delta i selvverifisering og refleksjon, som er kritiske for kompleks problemløsing [4].

Multi-trinns treningsprosess

Opplæringen av DeepSeek R1 er delt inn i flere faser:

1. Kald startfase: Modellen begynner med en liten mengde høykvalitets overvåkede data samlet inn fra forgjengeren, DeepSeek R1-Zero. Denne fasen hjelper til med å dempe problemer som dårlig lesbarhet og språkblanding som ble observert i tidligere modeller [1] [2].

2. Resonnementorientert RL: Etter den kalde starten gjennomgår modellen omfattende resonneringsorientert RL-trening. Denne fasen fokuserer på å forbedre mulighetene i spesifikke domener som koding, matematikk og logikk, der klare løsninger kan defineres ved hjelp av belønningsregler [3] [4].

3. Finjustering med nye data: Etter innledende RL-trening genereres nye overvåkede data gjennom avvisningsprøvetaking basert på RL-sjekkpunktet. Disse dataene brukes deretter til ytterligere finjustering, slik at modellen kan avgrense resonnementets evner på tvers av forskjellige oppgaver [1] [2].

ytelsesresultater

Resultatet av denne strenge treningsprosessen er en modell som oppnår ytelsesnivåer som kan sammenlignes med ledende modeller som Openais O1-1217 på resonnementoppgaver. For eksempel demonstrerte DeepSeek R1 signifikante forbedringer i benchmarks, med passeringer som økte fra 15,6% til 71% på AIME 2024 -oppgaver, og viste frem sine forbedrede resonnementsevner [1] [2].

Oppsummert fremmer DeepSeek R1s forsterkningslæringstilnærming ikke bare uavhengig resonnement, men forbedrer også problemløsningseffektiviteten ved å minimere avhengigheten av omfattende overvåkede datasett. Dette plasserer det som et kraftig verktøy i landskapet til store språkmodeller.

Sitasjoner:
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedettech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqqcllsibu
[4] https://arbisoft.com/blogs/deep-sek-r1-the-chinese-ai-powerhouse-utperforming-open-ai-s-o1-at-95-less-kostnad
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-odel-overview-and-how-it-ranks-ainst-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-depseek-r1-and-ways-u-un-it