Spekulativní dekódování v DeepSeek-R1: Zrychlení inferenční rychlosti

Jak spekulativní dekódování ovlivňuje celkovou latenci Deepseek-R1

Spekulativní dekódování je technika používaná k urychlení inferenční rychlosti velkých jazykových modelů, jako je DeepSeek-R1, využitím menšího modelu tahu pro generování kandidátních tokenů paralelně. Tento přístup může výrazně snížit latenci tím, že umožňuje modelu produkovat více tokenů současně, které jsou pak ověřeny větším modelem, aby byla zajištěna přesnost. I když spekulativní dekódování obecně zlepšuje propustnost, může zavést variabilitu latence v důsledku procesu ověření.

Jak funguje spekulativní dekódování

1. Paralelní generování tokenů: Menší model tahu generuje paralelně více tokenů kandidátů. To je rychlejší než sekvenční generování většího modelu, protože efektivněji využívá zrychlení GPU [1] [3].

2. Proces ověření: Větší model ověřuje tyto kandidátské tokeny. Pokud odpovídají očekávanému výstupu, jsou přijati; Jinak jsou přepočítávány pouze nesprávné žetony [3] [9].

Dopad na latenci

- Snížená průměrná latence: Spekulativní dekódování může snížit průměrnou latenci tím, že generuje tokeny rychleji. Je to proto, že návrh modelu vyžaduje méně zdrojů a může pracovat rychleji než větší model [3] [5].

- Variabilní latence: Zatímco spekulativní dekódování zlepšuje celkovou propustnost, může to vést k nekonzistentní latenci. Pokud jsou předpovědi návrhu modelu nesprávné, musí větší model přepočítat, což může způsobit hroty v latenci [3] [9].

Specifika DeepSeek-R1

DeepSeek-R1 zahrnuje vylepšení, jako je predikce více tónů (MTP) a optimalizované spekulativní dekódování, které dále zlepšují inferenční rychlost. MTP umožňuje DeepSeek-R1 paralelně předpovídat více tokenů, což snižuje dekódovací latenci bez ohrožení koherence [4]. Optimalizované spekulativní dekódování v DeepSeek-R1 používá pravděpodobnostní kontrolu dohody a přijímá předpovědi na základě prahů spolehlivosti spíše než na přesných shody, což snižuje míru odmítnutí a urychluje závěr [4].

Celkově může spekulativní dekódování významně zvýšit výkon DeepSeek-R1 snížením průměrné latence a zlepšením propustnosti, ale může zavést variabilitu latence v důsledku procesu ověřování.

Citace:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitively-and-exhaustively
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-This-Speculative-Decode-version-7293321395000819712-8YVC
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-Self-distilation-turbo-peculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-container/