Spekulativ avkoding i DeepSeek-R1: akselererende inferansehastighet

Hvordan påvirker spekulativ avkoding den generelle latensen til DeepSeek-R1

Spekulativ avkoding er en teknikk som brukes til å akselerere inferenshastigheten til store språkmodeller som DeepSeek-R1 ved å utnytte et mindre trekkmodell for å generere kandidat-symboler parallelt. Denne tilnærmingen kan redusere latensen betydelig ved å la modellen produsere flere symboler samtidig, som deretter blir verifisert av den større modellen for å sikre nøyaktighet. Selv om spekulativ avkoding generelt forbedrer gjennomstrømningen, kan den imidlertid innføre variabilitet i latens på grunn av bekreftelsesprosessen.

hvordan spekulativ avkoding fungerer

1. PARALLEL TOKEN -generering: Et mindre trekkmodell genererer flere kandidat -symboler parallelt. Dette er raskere enn sekvensiell generering av den større modellen fordi den bruker GPU -akselerasjon mer effektivt [1] [3].

2. Verifiseringsprosess: Den større modellen verifiserer disse kandidat -symbolene. Hvis de samsvarer med den forventede produksjonen, aksepteres de; Ellers er det bare de uriktige symbolene på nytt [3] [9].

innvirkning på latens

- Redusert gjennomsnittlig latens: Spekulativ avkoding kan redusere den gjennomsnittlige latensen ved å generere symboler raskere. Dette er fordi utkastet til modell krever færre ressurser og kan fungere raskere enn den større modellen [3] [5].

- Variabel latens: Mens spekulativ avkoding forbedrer total gjennomstrømningen, kan det føre til inkonsekvent latens. Når utkastet til modellens spådommer er uriktige, må den større modellen beregne på nytt, noe som kan forårsake pigger i latens [3] [9].

DeepSeek-R1-spesifikasjoner

DeepSeek-R1 inkluderer forbedringer som multi-Token prediksjon (MTP) og optimalisert spekulativ avkoding, noe som forbedrer inferansehastigheten ytterligere. MTP lar DeepSeek-R1 forutsi flere symboler parallelt, noe som reduserer avkoding av latens uten at det går ut over sammenheng [4]. Den optimaliserte spekulative avkodingen i DeepSeek-R1 bruker sannsynlighetsavtalekontroll, og aksepterer spådommer basert på tillitsgrenser i stedet for nøyaktige treff, noe som reduserer avvisningshastigheten og akselererer inferens [4].

Totalt sett kan spekulativ avkoding betydelig forbedre ytelsen til DeepSeek-R1 ved å redusere gjennomsnittlig latens og forbedre gjennomstrømningen, men det kan introdusere variabilitet i latens på grunn av bekreftelsesprosessen.

Sitasjoner:
[1] https://centml.ai/resources/2x-inferens-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitively-and-exhaustively
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-this-speculative-decode-Version-aktivitet-7293321395000819712-8YVC
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-azon-sagemaker-desing-a-en-large-model-inferens-container/