Deepseek-R1: Prekonanie miešania jazyka prostredníctvom posilňovacieho učenia a pod dohľadom doladenia

Ako rieši problémy s miešaním jazyka Deepseek-R1

DeepSeek-R1 rieši problémy s miešaním jazyka prostredníctvom viacstupňového procesu školenia, ktorý kombinuje posilňovacie vzdelávanie (RL) s doladením pod dohľadom (SFT). Model spočiatku začína základnou verziou (DeepSEEK-V3-Base), ktorá je doladená pomocou malej sady údajov „studeného spustenia“, čo pomáha vytvoriť štruktúrovaný základ pre pochopenie rôznych jazykov a kontextov [1] [2] [2] [2] [2] [2] [2] [ ].

Model potom využíva čisté techniky RL na zlepšenie svojich schopností zdôvodnenia. Počas tréningu sa však zistilo, že by mohlo dôjsť k miešaniu jazyka, najmä pri zaobchádzaní s otázkami v iných jazykoch ako v angličtine alebo čínštine. Napríklad DeepSeek-R1 by mohol predvoliť angličtinu pre zdôvodnenie a odpovede, aj keď je vstup v inom jazyku [5] [6]. To mitigate this, the model utilizes rejection sampling to generate synthetic training data from successful RL runs, which is then merged with high-quality supervised data from various domains. Tento proces pomáha zlepšovať prispôsobivosť modelu na rôzne jazyky a znižuje pravdepodobnosť miešania jazykov v reakciách [1] [4].

Furthermore, ongoing research aims to optimize DeepSeek-R1 for better performance across a wider range of languages while addressing its current limitations in handling mixed-language inputs effectively. Očakáva sa, že budúce aktualizácie v tejto oblasti vylepšia svoje schopnosti a pri interakcii s používateľmi v rôznych jazykových kontextoch [2] [5] zvýšia svoju reakciu a presnosť.

Citácie:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-us-it
[2] https://adasci.org/mastering-llms-reasoning-capability-with-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unFoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030V1