Spekulativ afkodning i DeepSeek-R1: Acceleration af inferenshastighed

Hvordan påvirker spekulativ afkodning den samlede latenstid for DeepSeek-R1

Spekulativ afkodning er en teknik, der bruges til at fremskynde inferenshastigheden for store sprogmodeller som DeepSeek-R1 ved at udnytte en mindre udkast til model til at generere kandidat-tokens parallelt. Denne tilgang kan reducere latenstid markant ved at lade modellen producere flere tokens samtidigt, som derefter verificeres af den større model for at sikre nøjagtighed. Selvom spekulativ afkodning generelt forbedrer gennemstrømningen, kan den indføre variation i forsinkelse på grund af verifikationsprocessen.

Hvordan spekulativ afkodning fungerer

1. parallel token generation: Et mindre udkast til model genererer flere kandidat -tokens parallelt. Dette er hurtigere end sekventiel generation af den større model, fordi den bruger GPU -acceleration mere effektivt [1] [3].

2. Verifikationsproces: Den større model verificerer disse kandidat -tokens. Hvis de matcher det forventede output, accepteres de; Ellers beregnes kun de forkerte tokens [3] [9].

Indvirkning på latenstid

- Nedsat gennemsnitlig latenstid: Spekulativ afkodning kan reducere den gennemsnitlige latenstid ved at generere tokens hurtigere. Dette skyldes, at udkastet til model kræver færre ressourcer og kan fungere hurtigere end den større model [3] [5].

- Variabel latenstid: Mens spekulativ afkodning forbedrer den samlede gennemstrømning, kan det føre til inkonsekvent latenstid. Når udkastet til modellens forudsigelser er forkerte, skal den større model beregne igen, hvilket kan forårsage pigge i latenstid [3] [9].

DeepSeek-R1-detaljer

DeepSeek-R1 inkorporerer forbedringer som multi-token forudsigelse (MTP) og optimeret spekulativ afkodning, hvilket yderligere forbedrer inferenshastigheden. MTP tillader DeepSeek-R1 at forudsige flere tokens parallelt, hvilket reducerer afkodning af latenstid uden at gå på kompromis med sammenhængen [4]. Den optimerede spekulative afkodning i DeepSeek-R1 bruger probabilistisk aftaleoptagelse, accepterer forudsigelser baseret på tillidsgrænser snarere end nøjagtige kampe, hvilket reducerer afvisningshastigheden og fremskynder inferensen [4].

Generelt kan spekulativ afkodning markant forbedre ydelsen af DeepSeek-R1 ved at reducere gennemsnitlig latenstid og forbedre gennemstrømningen, men det kan indføre variation i latenstid på grund af verifikationsprocessen.

Citater:
[1] https://centml.ai/resources/2x-inference-hreed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitivt-and-axhaustivly
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-this-speculative-code-version-aktivitet-7293321395000819712-8YVC
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-selmdistillation-turbo-speculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy theepseek-r1-Destilled-Models-on-Amazon-Sagemaker-Using-A-Large-Model-Inference-Container/