Špekulatívne dekódovanie v Deepseek-R1: zrýchlenie inferenčnej rýchlosti

Ako ovplyvňuje špekulatívne dekódovanie celkovú latenciu Deepseek-R1

Špekulatívne dekódovanie je technika, ktorá sa používa na urýchlenie inferenčnej rýchlosti veľkých jazykových modelov, ako je Deepseek-R1, využívaním menšieho modelu konceptu na generovanie kandidátnych tokenov paralelne. Tento prístup môže významne znížiť latenciu tým, že umožní modelu vytvárať súčasne viacero tokenov, ktoré sa potom overujú väčším modelom, aby sa zabezpečila presnosť. Zatiaľ čo špekulatívne dekódovanie vo všeobecnosti zlepšuje priepustnosť, môže zaviesť variabilitu latencie v dôsledku procesu overovania.

Ako funguje špekulatívne dekódovanie

1. Generovanie paralelných tokenov: Menší návrh modelu konceptu generuje paralelne viacero kandidátnych tokenov. To je rýchlejšie ako sekvenčné generovanie pomocou väčšieho modelu, pretože efektívnejšie využíva zrýchlenie GPU [1] [3].

2. Proces overovania: Väčší model overuje tieto kandidátne tokeny. Ak sa zhodujú s očakávaným výstupom, sú akceptované; V opačnom prípade sú prepočítané iba nesprávne tokeny [3] [9].

Vplyv na latenciu

- Znížená priemerná latencia: Špekulatívne dekódovanie môže znížiť priemernú latenciu rýchlejším generovaním žetónov. Je to preto, že návrh modelu vyžaduje menej zdrojov a môže fungovať rýchlejšie ako väčší model [3] [5].

- Variabilná latencia: Zatiaľ čo špekulatívne dekódovanie zlepšuje celkovú priepustnosť, môže to viesť k nekonzistentnej latencii. Ak sú predpovede modelu konceptu nesprávne, musí väčší model prepočítať, čo môže spôsobiť hroty v latencii [3] [9].

Deepseek-R1 špecifiká

DeepSeek-R1 obsahuje vylepšenia, ako je predikcia viacerých pracovníkov (MTP) a optimalizované špekulatívne dekódovanie, ktoré ďalej zlepšujú rýchlosť inferencie. MTP umožňuje Deepseek-R1 predpovedať paralelne viacero tokenov, čím sa znižuje latencia dekódovania bez ohrozenia koherencie [4]. Optimalizované špekulatívne dekódovanie v Deepseek-R1 využíva kontrolu pravdepodobnostnej dohody, pričom prijíma predpovede skôr na základe prahov spoľahlivosti ako presných zhody, čo znižuje mieru odmietnutia a urýchľuje inferenciu [4].

Celkovo môže špekulatívne dekódovanie významne zvýšiť výkonnosť Deepseek-R1 znížením priemernej latencie a zlepšením priepustnosti, ale môže zaviesť variabilitu latencie v dôsledku procesu overovania.

Citácie:
[1] https://centml.ai/resources/2x-inference-Speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuivey-and-exhaustively
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-speculative-decode-code-version-activity-7293321395000819712-8YVC
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speceulácia
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distille-models-on-on-amazon-sagemaker-using-using-a-large-model-inference-container/