„Deepseek-R1“: Kalbų maišymo įveikimas per stiprinimo mokymą

Kaip „DeepSeeek-R1“ tvarko kalbų maišymo problemas

„Deepseek-R1“ kreipiasi į kalbų maišymo problemas per daugiapakopį mokymo procesą, kuriame derinamas mokymosi armatūros mokymasis (RL) su prižiūrimu tobulinimu (SFT). Iš pradžių modelis prasideda nuo bazinės versijos („Deepseek-V3-Base“), kuris yra gerai sureguliuotas naudojant nedidelį „šalto starto“ duomenų rinkinį, kuris padeda sukurti struktūrizuotą pagrindą įvairių kalbų ir kontekstų supratimui [1] [2 ].

Tada modelis naudoja grynus RL metodus, kad padidintų jo samprotavimo galimybes. Tačiau mokymo metu buvo pastebėta, kad gali atsirasti kalbų maišymas, ypač tvarkant užklausas kitomis kalbomis nei anglų ar kinų kalba. Pvz., „Deepseeek-R1“ gali būti numatytas į anglų kalbą dėl samprotavimo ir atsakymų, net jei įvestis yra kita kalba [5] [6]. Norėdami tai sušvelninti, modelis naudoja atmetimo mėginių ėmimą, norėdamas generuoti sintetinius mokymo duomenis iš sėkmingų RL bandymų, kurie vėliau sujungta su aukštos kokybės prižiūrimais duomenimis iš įvairių domenų. Šis procesas padeda pagerinti modelio pritaikomumą skirtingoms kalboms ir sumažina tikimybę maišyti kalbas atsakymuose [1] [4].

Be to, vykdomuose tyrimuose siekiama optimizuoti „Deepseek-R1“, kad būtų geresnis našumas įvairiose kalbose, tuo pačiu siekiant efektyviai spręsti dabartinius jo apribojimus tvarkant mišrių kalbų įvestis. Tikimasi, kad būsimi atnaujinimai patobulins savo galimybes šioje srityje, padidindamas jos reagavimą ir tikslumą, kai bendraujate su įvairių kalbinių kontekstų vartotojais [2] [5].

Citatos:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-use-it-it
[2] https://adaci.org/masterling-llms-reasoning-capability-with-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1