Spekulativ avkodning i Deepseek-R1: Accelererande inferenshastighet

Hur påverkar spekulativ avkodning den totala latensen för Deepseek-R1

Spekulativ avkodning är en teknik som används för att påskynda inferenshastigheten för stora språkmodeller som Deepseek-R1 genom att utnyttja en mindre utkastsmodell för att generera kandidattokens parallellt. Detta tillvägagångssätt kan avsevärt minska latensen genom att låta modellen producera flera tokens samtidigt, som sedan verifieras av den större modellen för att säkerställa noggrannhet. Även om spekulativ avkodning generellt förbättrar genomströmningen, kan den införa variation i latens på grund av verifieringsprocessen.

Hur spekulativ avkodning fungerar

1. Parallell tokengenerering: En mindre utkast till modell genererar flera kandidattokens parallellt. Detta är snabbare än sekventiell generation av den större modellen eftersom den använder GPU -acceleration mer effektivt [1] [3].

2. Verifieringsprocess: Den större modellen verifierar dessa kandidattokens. Om de matchar den förväntade produktionen accepteras de; Annars beräknas endast de felaktiga tokens [3] [9].

Påverkan på latens

- Minskad genomsnittlig latens: Spekulativ avkodning kan minska den genomsnittliga latensen genom att generera tokens snabbare. Detta beror på att utkastet till modell kräver färre resurser och kan fungera snabbare än den större modellen [3] [5].

- Variabel latens: Medan spekulativ avkodning förbättrar den totala genomströmningen kan det leda till inkonsekvent latens. När utkastet till modellens förutsägelser är felaktiga måste den större modellen beräkna om, vilket kan orsaka spikar i latens [3] [9].

Deepseek-R1-specifikationer

Deepseek-R1 innehåller förbättringar som Multi-Token Prediction (MTP) och optimerad spekulativ avkodning, vilket ytterligare förbättrar inferenshastigheten. MTP tillåter Deepseek-R1 att förutsäga flera tokens parallellt, vilket minskar avkodningslatensen utan att kompromissa med sammanhållning [4]. Den optimerade spekulativa avkodningen i Deepseek-R1 använder probabilistiskt avtalskontroll, accepterar förutsägelser baserade på förtroendegränser snarare än exakta matcher, vilket minskar avvisningsgraden och påskyndar slutsatsen [4].

Sammantaget kan spekulativ avkodning avsevärt förbättra prestandan för Deepseek-R1 genom att minska den genomsnittliga latensen och förbättra genomströmningen, men det kan införa variation i latens på grund av verifieringsprocessen.

Citeringar:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitivt-and-exhustivt
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
]
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy2