deepseek-r1-zeroは、強化学習を通じて推論能力の重要な進歩を示しながら、いくつかの顕著な制限があります。
**言語のミキシングとコヒーレンスの問題:主な課題の1つは、言語、特に英語と中国語を混合する出力を生成するモデルの傾向です。これにより、特に入力クエリが単一言語[1] [4]である場合、一貫性がない、または理解しにくい回答が得られます。
**読みやすさの低下:モデルの出力の読みやすさはしばしば損なわれます。ユーザーは、フォーマットと明確さに関する問題を報告しており、推論プロセスまたはモデル[3] [5]によって提供される最終回答に従うことを困難にしています。
**監視された微調整の欠如:DeepSeek-R1-Zeroは、最初の監視された微調整なしで開発されました。この洗練がないと、監督された学習手法を組み込んだモデルと比較して、信頼性の低い反応につながる可能性があります[1] [3]。
**無限の繰り返し:モデルは、その応答に反復的な動作を示すことがあり、コミュニケーションの全体的なユーザーエクスペリエンスと有効性を損なう可能性があります[5] [7]。
**コーディングタスクのパフォーマンスの変動:DeepSeek-R1-Zeroは推論タスクで強力なパフォーマンスを示していますが、コーディングの課題でパフォーマンスが低下し、その機能がすべてのタスクタイプで堅牢ではない可能性があることを示しています[1] [2]。
これらの制限により、さらなる開発努力が促され、Deepseek-R1の作成につながります。これは、監視されたテクニックを組み込み、全体的なパフォーマンスを向上させることにより、これらの欠点に対処することを目的としています。
引用:[1] https://www.prompthub.us/blog/deepseek--model-overview-and-how-it-ranks-against-openais-o1
[2] https://arxiv.org/html/2501.12948v1
[3] https://www.gocodeo.com/post/deepseek-r1-deepseek-r1-zero
[4] https://myedgetech.com/deepseek-r1-tr/
[5] https://huggingface.co/deepseek-ai/deepseek-r1-zero
[6] https://adasci.org/mastering-llms-raisoning-capability with-deepseek-r1/
[7] https://www.datacamp.com/blog/deepseek-r1
[8] https://arxiv.org/pdf/2501.12948.pdf