deepseek-r1：補強学習と監視された微調整による言語の混合の克服

DeepSeek-R1は言語のミキシングの問題をどのように処理しますか

DeepSeek-R1は、強化学習（RL）と監視付き微調整（SFT）を組み合わせたマルチステージトレーニングプロセスを通じて、言語の混合の問題に対処します。当初、モデルは、多様な言語とコンテキストを理解するための構造化された基盤を確立するのに役立つ「コールドスタート」データの小さなセットを使用して微調整されたベースバージョン（deepseek-v3-base）で始まります[1] [2 ]。

その後、このモデルは純粋なRLテクニックを採用して、推論機能を強化します。ただし、トレーニング中に、特に英語や中国語以外の言語でクエリを処理する場合、言語の混合が発生する可能性があることが観察されました。たとえば、Deepseek-R1は、入力が別の言語である場合でも、推論と応答のために英語にデフォルトである可能性があります[5] [6]。これを緩和するために、モデルは拒否サンプリングを利用して、成功したRL実行から合成トレーニングデータを生成し、さまざまなドメインからの高品質の監視データとマージされます。このプロセスは、モデルのさまざまな言語への適応性を改善し、応答で言語を混合する可能性を減らすのに役立ちます[1] [4]。

さらに、進行中の研究の目的は、DeepSeek-R1を最適化して、より広範な言語でより良いパフォーマンスを発揮しながら、混合言語入力を効果的に処理する際の現在の制限に対処することを目的としています。将来の更新は、この分野での機能を改善し、多様な言語コンテキストでユーザーと対話するときにその応答性と精度を向上させることが期待されています[2] [5]。

引用：
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-ned-ways-to-use-it
[2] https://adasci.org/mastering-llms-rasining-capability with-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1iagr6u/how_do_i_finetune_deepseek_r1_on_a_new_language/
[4] https://unfoldai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/active
[8] https://arxiv.org/html/2501.17030v1