DeepSeek-R1: valodas sajaukšanās pārvarēšana, izmantojot pastiprināšanas mācīšanos un uzraudzītu precizēšanu

Kā DeepSeek-R1 rīkojas ar valodu sajaukšanas problēmām

DeepSeek-R1 risina valodu sajaukšanas problēmas, izmantojot daudzpakāpju apmācības procesu, kas apvieno pastiprināšanas mācīšanos (RL) ar uzraudzītu precizēšanu (SFT). Sākotnēji modelis sākas ar bāzes versiju (DeepSeek-V3-Base), kas ir precīzi noregulēta, izmantojot nelielu "aukstuma" datu kopu, kas palīdz izveidot strukturētu pamatu dažādu valodu un kontekstu izpratnei [1] [2 ].

Pēc tam modelī tiek izmantotas tīras RL metodes, lai uzlabotu tās spriešanas iespējas. Tomēr apmācības laikā tika novērots, ka var notikt valodu sajaukšana, it īpaši, apstrādājot vaicājumus citās valodās, izņemot angļu vai ķīniešu valodu. Piemēram, DeepSeek-R1 varētu noklusēt angļu valodu, lai pamatotu un atbildes, pat ja ieguldījums ir citā valodā [5] [6]. Lai to mazinātu, modelis izmanto noraidīšanas paraugu ņemšanu, lai ģenerētu sintētisko apmācības datus no veiksmīgiem RL darbiem, kurus pēc tam apvieno ar augstas kvalitātes uzraudzītiem datiem no dažādām jomām. Šis process palīdz uzlabot modeļa pielāgojamību dažādām valodām un samazina valodu sajaukšanas iespējamību atbildēs [1] [4].

Turklāt pastāvīgā pētījuma mērķis ir optimizēt DeepSEEK-R1 labāku sniegumu plašākā valodu lokā, vienlaikus efektīvi risinot tās pašreizējos ierobežojumus jauktu valodu izejvielu apstrādē. Paredzams, ka turpmākie atjauninājumi uzlabos tās iespējas šajā jomā, uzlabojot tās atsaucību un precizitāti, mijiedarbojoties ar lietotājiem dažādos lingvistiskos kontekstos [2] [5].

Atsauces:
[1] https://www.vellum.ai/blog/the-training-of-depseek--and-way
[2] https://adasci.org/mastering-llms-reasoning-capability-with-depseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1