Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 推測的なデコードでのプロベリスティック契約のチェックがどのような役割をチェックしますか


推測的なデコードでのプロベリスティック契約のチェックがどのような役割をチェックしますか


確率的合意チェックは、より小さな「ドラフト」モデルによって生成されたトークンが、より大きなベースモデルの出力分布と一致するようにすることにより、投機的デコードにおいて重要な役割を果たします。このプロセスは、投機的デコードによって提供される効率の向上を活用しながら、生成されたテキストの品質と一貫性を維持するために不可欠です。

###投機デコードの概要

投機的デコードには、多くの場合、投機家またはドラフトモデルと呼ばれる小さなモデルを使用して、次の数トークンを順番に予測します。これらの予測は、より大きく、より正確なモデル(基本モデル)の出力に対して検証され、基本モデルの分布に応じてもっともらしいことを確認します[1] [4]。この検証ステップは、確率的合意チェックが行われる場所です。

###確率的契約のチェック

1。検証プロセス:ドラフトモデルがトークンを生成した後、同じ入力がベースモデルに供給され、次のトークンを予測します。ドラフトモデルによって生成されるトークンの確率は、ベースモデルによって割り当てられた確率と比較されます。ドラフトモデルのトークンに、ベースモデルに割り当てられた確率以下の確率がある場合、それは受け入れられます。そうでなければ、拒否されます[1]。

2。確率的アライメント:目標は、ドラフトモデルの出力がベースモデルの分布と整合することを確認することです。このアラインメントは、投機的なデコードが基本モデルによって受け入れられる可能性が高いトークンを生成するために重要であり、したがって、推論プロセスを高速化しながら出力の品質を維持します[1] [4]。

3。効率と品質のトレードオフ:確率的合意チェックは、バランスの効率と品質に役立ちます。基本モデルに従って可能性が高いトークンを受け入れると、投機的デコードは、出力品質を損なうことなく並行して複数のトークンを生成できます。このアプローチは、トークンを連続して生成する従来の自己回帰モデルと比較して、潜時を大幅に削減します[4] [5]。

4。さまざまなシナリオへの適応:マルチサンプルの推論シナリオでは、確率的契約チェックを適応させることができます。構造パターンを分析し、コンセンサストークンシーケンスを集約することにより、投機的デコードはドラフト受容率を改善し、外部モデルやデータベースを必要とせずに遅延を減らすことができます[2]。

### 結論

要約すると、確率的契約のチェックは投機的デコードの重要な要素であり、並列処理から効率の向上が生成されたテキストの品質を損なわないことを保証します。ドラフトモデルの出力のアライメントを基本モデルの分布と確認することにより、投機的デコードは出力の品質を維持しながら大幅な速度改善を達成できます。

引用:
[1] https://blog.codingconfessions.com/p/a-selective-survey-of- Speculative-decoding
[2] https://arxiv.org/html/2503.05330v1
[3] https://arxiv.org/html/2412.10418v2
[4] https://www.linkedin.com/posts/maxbuckley_what-is-speculative-decoding-speculative-activity-7286422871885643776-sngb
[5] https://mlops.substack.com/p/speculative-decoding-for-llm
[6] https://openreview.net/pdf?id=wsqpnemvlu
[7] https://philkrav.com/posts/speculative/
[8] https://www.reddit.com/r/localllama/comments/1iu8f7s/speculative_decoding_can_identify_broken_quants/