DeepSeek-R1: Překonání míchání jazyků prostřednictvím učení a pod dohledem je jemné doladění

Jak DeepSeek-R1 zpracovává problémy s mícháním jazyka

| DeepSeek-R1 řeší problémy s mícháním jazyků prostřednictvím vícestupňového tréninkového procesu, který kombinuje učení výztuže (RL) s pod dohledem jemného doladění (SFT). Zpočátku model začíná základní verzí (DeepSeek-V3-Base), která je doladěna pomocí malé sady dat „studeného startu“, což pomáhá vytvořit strukturovaný základ pro pochopení různých jazyků a kontextů [1] [2 [2 ].

Model pak využívá čisté techniky RL ke zlepšení svých schopností uvažování. Během tréninku však bylo pozorováno, že by mohlo dojít k míchání jazyka, zejména při manipulaci s dotazy v jazycích jiných než angličtinou nebo čínštině. Například DeepSeek-R1 by mohl výchozí do angličtiny pro uvažování a odpovědi, i když je vstup v jiném jazyce [5] [6]. Abychom to zmírnili, model využívá vzorkování odmítnutí k generování dat syntetického tréninku z úspěšných běhů RL, které se poté sloučí s vysoce kvalitními daty pod dohledem z různých domén. Tento proces pomáhá zlepšit přizpůsobitelnost modelu různým jazykům a snižuje pravděpodobnost míchání jazyků v odpovědích [1] [4].

Cílem probíhajícího výzkumu je dále optimalizovat DeepSeek-R1 pro lepší výkon napříč širší škálou jazyků a zároveň se zabývat jeho současnými omezeními při efektivním zpracování vstupů smíšeného jazyka. Očekává se, že budoucí aktualizace zdokonalí své schopnosti v této oblasti, čímž se zvýší jeho citlivost a přesnost při interakci s uživateli v různých lingvistických kontextech [2] [5].

Citace:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-anday-to-use-it
[2] https://adasci.org/Mastering-LLMS-Reasoning-Capability-with-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1