DeepSeek-R1は、強化学習(RL)ベースの専門家ルーティングやマルチトークン予測(MTP)など、いくつかの主要なイノベーションを通じて投機的デコードを強化します。 RLベースのエキスパートルーティングが投機的デコードにどのように貢献するかは次のとおりです。
RLベースのエキスパートルーティング
1。動的トークンの割り当て:DeepSeek-R1はRLを使用して、コンテキスト埋め込みに基づいてトークンを専門家に動的に割り当てます。これは、DeepSeek-V3などの以前のモデルで使用された静的ルーティング方法からの逸脱です。 $$ \ pi _ {\ theta} $$として示されるRLポリシーは、トークンのエンベッディング$$ u_t $$に基づいて、トークン$$ t $$の$$ e_i $$を選択する確率を調整します。
2。最適化目標:RLポリシーは、グループ相対ポリシー最適化(GRPO)フレームワークを使用して最適化されます。 GRPOは、ルーティングエントロピーを最小限に抑え、特定の専門家の過負荷を防ぎながら、累積報酬を最大化することを目指しています。これにより、トークンが専門家に効率的に分布し、負荷分散と推論速度の両方を最適化することが保証されます[1]。
3。動的バイアス用語:ルーティング関数には、トレーニングフィードバックに基づいて専門家の選択を変調する動的バイアス用語が組み込まれています。この適応性により、モデルは時間の経過とともにトークンエクスパーマッピングを改良し、精度を損なうことなく推論効率を高めることができます[1]。
###投機デコードへの影響
DeepSeek-R1での投機的デコードには、複数のトークンを並行して予測し、出力を確定する前にそれらを検証することが含まれます。 RLベースのエキスパートルーティングは、投機的デコードを強化します。
- トークン予測効率の改善:トークンの割り当てと負荷分散を動的に最適化することにより、RLベースのルーティングにより、モデルが投機的デコードの増加する計算要求をより効率的に処理できるようになります。これにより、一貫性や精度を犠牲にすることなく、複数のトークンをより高速に生成できます[1] [2]。
- モデルの適応性の向上:RLベースのルーティングの適応性により、入力シーケンスの複雑さとコンテキストに基づいて、DeepSeek-R1がトークン予測戦略を調整できます。この適応性は、推測的なデコード中に高品質の出力を維持するために重要であり、モデルは複数のトークンを同時に予測および検証する必要があります[1] [4]。
- レイテンシの削減:ルーティングプロセスを最適化することにより、DeepSeek-R1は精度を維持しながらテキストをより迅速に生成できます。このレイテンシの減少は、投機的なデコードに特に有益であり、複数のトークンを一度に生成すると、全体的な推論プロセスが大幅に高速化されます[2] [3]。
要約すると、DeepSeek-R1のRLベースのエキスパートルーティングは、トークン予測効率、モデル適応性、およびレイテンシを削減することにより、投機的デコードを強化します。これらはすべて、テキストの生成を高速化しながら高品質の出力を維持するために重要です。
引用:
[1] https://aman.ai/primers/ai/deepseek-r1/
[2] https://centml.ai/resources/2x-inference-speed-on-r1
[3] https://neuralmagic.com/blog/optimizing-vllm-for-deepseek-r1/
[4] https://www.thewirechina.com/wp-content/uploads/2025/01/deepseek-r1-document.pdf
[5] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[6] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distill-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[7] https://huggingface.co/papers?q = deepseek-r1
[8] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distilation-turbo-speculation
[9] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distill-models-on-amazon-sagemaker-using-a-large-model-inference-container/