Spekuliacinis dekodavimas „Deepseek-R1“: pagreitinantis išvadų greitis

Kaip spekuliacinis dekodavimas veikia bendrą „Deepseek-R1“ vėlavimą

Spekuliacinis dekodavimas yra technika, naudojama pagreitinti didelių kalbų modelių, tokių kaip „Deepseeek-R1“, išvadų greitį, pasinaudojant mažesnio juodraščio modeliu, kad būtų galima generuoti žetonus kandidatus lygiagrečiai. Šis požiūris gali žymiai sumažinti latenciją, nes modeliui vienu metu gaminti kelis žetonus, kuriuos vėliau patikrina didesnis modelis, kad būtų užtikrintas tikslumas. Tačiau, nors spekuliacinis dekodavimas paprastai pagerina pralaidumą, jis gali sukelti latencijos kintamumą dėl patikrinimo proceso.

Kaip veikia spekuliacinis dekodavimas

1. Lygiagrečios žetono generavimas: Mažesnis juodraščio modelis lygiagrečiai generuoja kelis kandidatus į žetonus. Didesnis modelis yra greitesnis nei nuoseklios generavimo, nes efektyviau naudoja GPU pagreitį [1] [3].

2. Patikrinimo procesas: Didesnis modelis patikrina šiuos kandidatus. Jei jie atitinka numatomą išvestį, jie yra priimami; Priešingu atveju perskaičiuojami tik neteisingi žetonai [3] [9].

Poveikis latencijai

- Sumažintas vidutinis vėlavimas: spekuliatyvus dekodavimas gali sumažinti vidutinį latenciją, sukuriant žetonus greičiau. Taip yra todėl, kad projekto modeliui reikia mažiau išteklių ir jis gali veikti greičiau nei didesnis modelis [3] [5].

- Kintamas vėlavimas: Nors spekuliacinis dekodavimas pagerina bendrą pralaidumą, jis gali sukelti nenuoseklų latenciją. Kai projekto modelio prognozės yra neteisingos, didesnis modelis turi perskaičiuoti, o tai gali sukelti delsos smaigalius [3] [9].

„Deepseek-R1“ specifika

„Deepseek-R1“ apima patobulinimus, tokius kaip daugialypės prognozės (MTP) ir optimizuotas spekuliatyvus dekodavimas, kuris dar labiau pagerina išvadų greitį. MTP leidžia „Deepseeek-R1“ lygiagrečiai numatyti kelis žetonus, sumažinant dekodavimo latenciją nepakenkiant darnai [4]. Optimizuotame spekuliatyviame dekodavime „Deepseek-R1“ naudojamas tikimybinis susitarimas, tikrinantis, priima prognozes, pagrįstas pasitikėjimo slenksčiais, o ne tiksliomis rungtynėmis, o tai sumažina atmetimo rodiklius ir pagreitina išvadas [4].

Apskritai, spekuliatyvusis dekodavimas gali žymiai pagerinti „Deepseeek-R1“ veikimą sumažinant vidutinį delsą ir pagerinant pralaidumą, tačiau jis gali sukelti latencijos kintamumą dėl patikrinimo proceso.

Citatos:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuityviai-and-exhustly
[3] https://www.theregister.com/2024/12/15/Speculatication_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculations_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-this-Speculational-decode-version-actity-7293321395000819712-8YVC
[9] https://predibase.com/blog/predbase.com/blog/deepseek-r1-self-distilation-urbo-speculation
[10] https://aws.amazon.com/blogs/machine-learning/depall-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/