投機的デコードは、小さなドラフトモデルを活用して候補トークンを並行して生成することにより、DeepSeek-R1のような大規模な言語モデルの推論速度を加速するために使用される手法です。このアプローチは、モデルが複数のトークンを同時に生成できるようにすることにより、レイテンシを大幅に減らすことができ、その後、より大きなモデルによって検証され、精度を確保できます。ただし、投機的デコードは一般にスループットが改善されますが、検証プロセスにより、レイテンシの変動性を導入できます。
###投機的なデコードの仕組み
1。パラレルトークン生成:ドラフトモデルが小さいと、複数の候補トークンが並行して生成されます。これは、GPU加速度をより効率的に利用するため、より大きなモデルによるシーケンシャル生成よりも高速です[1] [3]。
2。検証プロセス:より大きなモデルは、これらの候補トークンを検証します。予想される出力に一致する場合、受け入れられます。それ以外の場合、誤ったトークンのみが再計算されます[3] [9]。
###レイテンシへの影響
- 平均レイテンシーの低下:投機的デコードは、トークンをより迅速に生成することで平均レイテンシを減らすことができます。これは、ドラフトモデルの必要性が少なく、より大きなモデルよりも速く動作できるためです[3] [5]。
- 可変遅延:投機的デコードは全体的なスループットを改善しますが、一貫性のない遅延につながる可能性があります。モデルのドラフトの予測が正しくない場合、より大きなモデルが再計算され、潜時がスパイクを引き起こす可能性があります[3] [9]。
deepseek-r1詳細
DeepSeek-R1には、マルチトークン予測(MTP)や最適化された投機的デコードなどの強化が組み込まれており、推論速度がさらに向上します。 MTPにより、DeepSeek-R1は複数のトークンを並行して予測することができ、コヒーレンスを損なうことなくデコードレイテンシを減らします[4]。 DeepSeek-R1での最適化された投機的デコードは、確率的合意チェックを使用し、正確な一致ではなく信頼のしきい値に基づいて予測を受け入れ、拒否率を低下させ、推論を加速します[4]。
全体として、投機的デコードは、平均レイテンシを減らしてスループットを改善することにより、DeepSeek-R1のパフォーマンスを大幅に向上させることができますが、検証プロセスによりレイテンシの変動をもたらす可能性があります。
引用:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-直感的に繰り返し
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-s-speculative-decode-version-apivity-7293321395000819712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distilation-turbo-speculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distill-models-on-amazon-sagemaker-using-a-large-model-inference-container/