Grupas relatīvās politikas optimizācija (GRPO) DeepSeek R1: AI argumentācijas uzlabošana

Kādu lomu grupas relatīvās politikas optimizācijas (GRPO) algoritms spēlē DeepSeek R1 apmācībā

Relatīvās politikas optimizācijas (GRPO) algoritmam ir kritiska loma DeepSeek R1 apmācībā, uzlabojot tās spriešanas iespējas, izmantojot racionalizētu pastiprināšanas mācīšanās (RL) pieeju.

GRPO pārskats

GRPO ir jauns pastiprināšanas mācīšanās algoritms, kas modificē tradicionālās metodes, piemēram, proksimālās politikas optimizāciju (PPO), novēršot nepieciešamību pēc atsevišķa vērtības funkcijas modeļa, kas vienkāršo apmācības procesu un samazina atmiņas izmantošanu. Tā vietā, lai paļautos uz kritiķa modeli, lai novērtētu rezultātus, GRPO izmanto statistiskos salīdzinājumus starp vairākiem ģenerētiem rezultātiem, lai novērtētu veiktspēju attiecībā pret grupas vidējiem rādītājiem [1] [3]. Šī metode ļauj modelim uzzināt efektīvāk, koncentrējoties uz grupām balstītām priekšrocībām, nevis individuāliem izejas novērtējumiem.

apmācības process DeepSeek R1

DeepSEEK R1 kontekstā GRPO atvieglo liela mēroga pastiprināšanas mācīšanos bez nepieciešamības uzraudzīt. Modelis ģenerē vairākus kandidātu risinājumus katrai uzvednei un aprēķina atlīdzību, pamatojoties uz to precizitāti un noteiktu formātu ievērošanu. Šī uz noteikumiem balstītā atlīdzības sistēma nodrošina, ka apmācības process ir gan resursu efektīvs, gan pielāgojams [2] [4]. Pārraudzītu datu neesamība ļauj DeepSeek R1 autonomi attīstīt spriešanas iespējas, mijiedarbojoties ar savu vidi, izraisot novatorisku uzvedību problēmu risināšanai [6] [7].

GRPO galvenās priekšrocības DeepSeek R1

- Kritiskā modeļa likvidēšana: noņemot kritiku, GRPO samazina skaitļošanas izmaksas un sarežģītību, kas saistīta ar divu atsevišķu neironu tīklu (aktieri un kritiķu) uzturēšanu, kas ir raksturīga tradicionālajiem RL iestatījumiem [3] [9].
- Grupā balstīts atlīdzības aprēķins: algoritms izmanto rezultātu grupas vidējo veiktspēju kā pamatlīmeni priekšrocību aprēķināšanai, labāk saskaņojot ar atlīdzības modeļa apmācības raksturu, kas bieži ietver vairākas izejas vienai ievadei [1] [5].
- Uzlabota efektivitāte: racionalizētais process ne tikai uzlabo mācīšanās efektivitāti, bet arī ļauj DeepSeEK R1 sasniegt veiktspēju, kas salīdzināma ar lielākiem modeļiem, vienlaikus ievērojami lētāk trenēties un darboties [2] [6].

Rezumējot, GRPO ir neatņemama DeepSeek R1 apmācība, ļaujot tai efektīvi apgūt spriešanas prasmes, izmantojot efektīvāku un pielāgojamāku pastiprināšanas mācību ietvaru. Šis jauninājums pozicionē DeepSeek R1 kā konkurētspējīgu modeli sarežģītu spriešanas uzdevumos, konkurējot ar AI sistēmām, vienlaikus veicinot piekļuvi AI attīstībā.

Atsauces:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-nedeepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-depseek--model-2dli
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://aipapersacademy.com/deepseek-r1/
[6.]
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-hats-waves-on-a-budget-13ik