DeepSeek-R1: Подолання мови, що змішується за допомогою підкріплення та нагляду за тонкою настройкою

Як DeepSeek-R1 вирішує проблеми змішування мови

DeepSeek-R1 вирішує проблеми змішування мови за допомогою багатоступеневого навчального процесу, який поєднує в собі підкріплення (RL) з контрольованою тонкою настройкою (SFT). Спочатку модель починається з базової версії (DeepSeek-V3-Base), яка тонко налаштована за допомогою невеликого набору даних "холодного запуску", що допомагає встановити структуровану основу для розуміння різноманітних мов та контекстів [1] [2 ].

Потім модель використовує чисті методи RL для покращення своїх можливостей міркувань. Однак під час тренінгу спостерігалося, що мови може відбутися, особливо при обробці запитів іншими мовами, ніж англійська чи китайська. Наприклад, DeepSeek-R1 може за замовчуванням для англійської мови за міркування та відповіді, навіть якщо вхід є іншою мовою [5] [6]. Для пом'якшення цього моделі використовує вибіркову пробну вибірку для генерації синтетичних даних про навчання з успішних RL-запусків, які потім об'єднуються з високоякісними контрольними даними з різних областей. Цей процес допомагає покращити пристосованість моделі до різних мов та зменшує ймовірність змішування мов у відповідях [1] [4].

Крім того, постійні дослідження мають на меті оптимізувати DeepSeek-R1 для кращої продуктивності в більш широкому діапазоні мов, одночасно вирішуючи свої поточні обмеження в ефективному поводженні з входами змішаної мови. Очікується, що майбутні оновлення вдосконалюють свої можливості в цій галузі, підвищуючи її чуйність та точність при взаємодії з користувачами в різноманітних лінгвістичних контекстах [2] [5].

Цитати:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://adasci.org/mastering-llms-rasoning-capability-teepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1