Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Deepseek R1の強化学習アプローチは、その推論能力をどのように強化しますか


Deepseek R1の強化学習アプローチは、その推論能力をどのように強化しますか


deepseek R1は、従来の監視施設(SFT)方法から逸脱する新しい強化学習(RL)アプローチを通じて、推論能力を強化します。この革新的な戦略により、モデルは推論スキルを独立して効率的に開発することができます。

##強化学習フレームワーク

DeepSeek R1は、事前に適応したデータセットに依存せずにモデルが試行錯誤から学習できるようにするルールベースのRLフレームワークであるグループ相対ポリシー最適化(GRPO)を採用しています。このアプローチにより、モデルは広大なソリューションスペースを探索し、監視されたトレーニングデータに存在しない可能性のあるユニークな推論パターンと戦略を発見することができます[1] [2] [4]。 RLプロセス中に推論を奨励することにより、DeepSeek R1は、一貫した思考のチェーンを生成し、複雑な問題解決に重要な自己検証と反省に従事することができます[4]。

##マルチステージトレーニングプロセス

DeepSeek R1のトレーニングは、いくつかのフェーズに分かれています。

1.コールドスタートフェーズ:モデルは、前身のDeepSeek R1-Zeroから収集された高品質の監視データから始まります。このフェーズは、以前のモデルで観察された読みやすさや言語の混合などの問題を軽減するのに役立ちます[1] [2]。

2。推論指向RL:コールドスタート後、モデルは広範な推論指向のRLトレーニングを受けます。このフェーズでは、コード、数学、ロジックなどの特定のドメインの能力の強化に焦点を当てています。ここでは、報酬ルール[3] [4]を使用して明確なソリューションを定義できます。

3.新しいデータでの微調整:最初のRLトレーニングの後、RLチェックポイントに基づく拒否サンプリングを通じて新しい監視データが生成されます。このデータは、さらに微調整するために使用され、モデルがさまざまなタスクで推論能力を改善できるようにします[1] [2]。

##パフォーマンスの結果

この厳密なトレーニングプロセスの結果は、推論タスクに関するOpenaiのO1-1217などの主要なモデルに匹敵するパフォーマンスレベルを達成するモデルです。たとえば、Deepseek R1はベンチマークの大幅な改善を示し、Pass率はAIME 2024タスクの15.6%から71%に増加し、強化された推論機能を紹介します[1] [2]。

要約すると、DeepSeek R1の強化学習アプローチは、独立した推論を促進するだけでなく、広範な監視されたデータセットへの依存を最小限に抑えることで問題解決効率を高めます。これは、大規模な言語モデルのランドスケープの強力なツールとして位置付けられています。

引用:
[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-tr/
[3] https://www.youtube.com/watch?v = dcqcclsibu
[4] https://arbisoft.com/blogs/deep-seek-r1-the-chinese-ai-powerhouse-outperforming-open-ai-s-o1-at-95-less-cost
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek--model-overview-and-how-it-ranks-against-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-ned-ways-to-use-it