DeepSeek R1: argumentācijas revolucionēšana ar pastiprināšanas mācīšanos

Kā DeepSeek R1 pastiprināšanas mācīšanās pieeja uzlabo tās spriešanas iespējas

DeepSeek R1 uzlabo tās spriešanas iespējas, izmantojot jaunu pastiprināšanas mācīšanās (RL) pieeju, kas atšķiras no tradicionālajām uzraudzītajām precizēšanas (SFT) metodēm. Šī novatoriskā stratēģija ļauj modelim patstāvīgi un efektīvi attīstīt spriešanas prasmes.

pastiprināšanas mācību ietvars

DeepSeek R1 izmanto grupas relatīvās politikas optimizāciju (GRPO)-uz noteikumiem balstītu RL sistēmu, kas ļauj modelim mācīties no izmēģinājumiem un kļūdām, nepaļaujoties uz iepriekš iezīmētām datu kopām. Šī pieeja ļauj modelim izpētīt plašu risinājumu telpu, atklājot unikālus spriešanas modeļus un stratēģijas, kas varētu nebūt klāt uzraudzītajos apmācības datos [1] [2] [4]. Stimulējot argumentāciju RL procesa laikā, DeepSeek R1 var radīt saskaņotas domu ķēdes un iesaistīties pašpārbaudes un refleksijā, kas ir kritiska sarežģītai problēmu risināšanai [4].

daudzpakāpju apmācības process

DeepSeek R1 apmācība ir sadalīta vairākās fāzēs:

1. Aukstā sākuma fāze: modelis sākas ar nelielu daudzumu augstas kvalitātes uzraudzītu datu, kas savākti no tā priekšgājēja DeepSeek R1-nulles. Šī fāze palīdz mazināt tādus jautājumus kā slikta lasāmība un valodu sajaukšana, kas tika novēroti iepriekšējos modeļos [1] [2].

2. Argumentāciju orientēts RL: Pēc aukstuma sākuma modelim tiek veikta plaša uzgaidām orientēta RL apmācība. Šis posms ir vērsts uz iespēju uzlabošanas iespējām tādās jomās kā kodēšana, matemātika un loģika, kur skaidrus risinājumus var definēt, izmantojot atlīdzības noteikumus [3] [4].

3. Precīzs ar jauniem datiem: Pēc sākotnējās RL apmācības tiek ģenerēti jauni uzraudzīti dati, izmantojot noraidīšanas paraugu ņemšanu, pamatojoties uz RL kontrolpunktu. Pēc tam šie dati tiek izmantoti turpmākai precizēšanai, ļaujot modelim uzlabot tā spriešanas spējas dažādos uzdevumos [1] [2].

Veiktspējas rezultāti

Šī stingrā apmācības procesa rezultāts ir modelis, kas ar spriešanas uzdevumiem sasniedz veiktspējas līmeni, kas salīdzināms ar vadošajiem modeļiem, piemēram, Openai O1-1217. Piemēram, DeepSeek R1 parādīja būtiskus uzlabojumus etalonos, caurlaides likmēm pieaugot no 15,6% līdz 71% AIME 2024 uzdevumos, parādot tās pastiprinātās spriešanas iespējas [1] [2].

Rezumējot, DeepSeek R1 pastiprināšanas mācīšanās pieeja ne tikai veicina neatkarīgu spriešanu, bet arī uzlabo problēmu risināšanas efektivitāti, samazinot paļaušanos uz plašām uzraudzītām datu kopām. Tas to pozicionē kā spēcīgu instrumentu lielo valodu modeļu ainavā.

Atsauces:
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v=dcqccllsibu
.
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6.]
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-depseek--and-ways-to-use-it