Deepseek-r1: преодоление смешивания языка с помощью обучения подкреплению и контролировать точную настройку

Deepseek-r1 решает проблемы смешивания языка с помощью многоэтапного обучения, который сочетает в себе обучение подкреплению (RL) с контролируемой точной настройкой (SFT). Первоначально модель начинается с базовой версии (DeepSeek-V3-Base), которая точно настроена с использованием небольшого набора данных «холодного», который помогает установить структурированную основу для понимания разнообразных языков и контекстов [1] [2 ]

Затем модель использует чистые методы RL для расширения своих возможностей рассуждений. Однако во время обучения было отмечено, что может произойти смешивание языка, особенно при обработке запросов на языках, отличных от английского или китайского. Например, DeepSeek-R1 может по умолчанию в английском языке для рассуждений и ответов, даже если ввод находится на другом языке [5] [6]. Чтобы смягчить это, модель использует выборку отклонения для генерации синтетических данных обучения из успешных RL-прогонов, которые затем объединяются с высококачественными контролируемыми данными из различных доменов. Этот процесс помогает улучшить адаптивность модели к различным языкам и снижает вероятность смешивания языков в ответах [1] [4].

Кроме того, текущие исследования направлены на то, чтобы оптимизировать DeepSeek-R1 для лучшей производительности в более широком диапазоне языков, одновременно устраняя его текущие ограничения при эффективной обработке входов смешанных языков. Ожидается, что будущие обновления усовершенствуют свои возможности в этой области, повышая ее отзывчивость и точность при взаимодействии с пользователями в различных лингвистических контекстах [2] [5].

Цитаты:
[1] https://www.vellum.ai/blog/the training-of-deepseek-r1-and-way-to-use-it
[2] https://adasci.org/mastering-llms-reaseing-capability-with-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1

Как DeepSeek-R1 решает проблемы смешивания языка