Decodarea speculativă în Deepseek-R1: accelerarea vitezei de inferență

Cum afectează decodarea speculativă latența generală a DeepSeek-R1

Decodarea speculativă este o tehnică folosită pentru a accelera viteza de inferență a modelelor de limbaj mare precum DeepSeek-R1 prin utilizarea unui model de proiect mai mic pentru a genera jetoane candidate în paralel. Această abordare poate reduce semnificativ latența, permițând modelului să producă mai multe jetoane simultan, care sunt apoi verificate de modelul mai mare pentru a asigura precizia. Cu toate acestea, în timp ce decodarea speculativă îmbunătățește în general randamentul, poate introduce o variabilitate în latență datorită procesului de verificare.

Cum funcționează decodarea speculativă

1. Generarea paralelă a jetoanelor: Un model de proiect mai mic generează mai multe jetoane candidate în paralel. Aceasta este mai rapidă decât generarea secvențială prin modelul mai mare, deoarece utilizează accelerația GPU mai eficient [1] [3].

2. Procesul de verificare: modelul mai mare verifică aceste jetoane candidate. Dacă se potrivesc cu producția preconizată, sunt acceptate; În caz contrar, numai jetoanele incorecte sunt recalculate [3] [9].

Impactul asupra latenței

- Latență medie redusă: decodarea speculativă poate reduce mai rapid latența medie prin generarea de jetoane. Acest lucru se datorează faptului că modelul de proiect necesită mai puține resurse și poate funcționa mai repede decât modelul mai mare [3] [5].

- Latență variabilă: în timp ce decodarea speculativă îmbunătățește randamentul general, poate duce la o latență inconsistentă. Când predicțiile modelului de proiect sunt incorecte, modelul mai mare trebuie să se recalculeze, ceea ce poate provoca vârfuri în latență [3] [9].

Specificații DeepSeek-R1

Deepseek-R1 încorporează îmbunătățiri precum predicția multi-token (MTP) și decodarea speculativă optimizată, care îmbunătățesc în continuare viteza de inferență. MTP permite DeepSeek-R1 să prezică mai multe jetoane în paralel, reducând latența de decodare fără a compromite coerența [4]. Decodarea speculativă optimizată în DeepSeek-R1 folosește verificarea acordului probabilistic, acceptând predicții bazate pe pragurile de încredere, mai degrabă decât pe potriviri exacte, ceea ce reduce ratele de respingere și accelerează inferența [4].

În general, decodarea speculativă poate îmbunătăți semnificativ performanța DeepSeek-R1 prin reducerea latenței medii și îmbunătățirea debitului, dar poate introduce o variabilitate în latență datorită procesului de verificare.

Citări:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitiviv-și-exhaustiv
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-his-speculative-decode-Version-Activity-7293321395000819712-8YVC
[9] https://predibase.com/blog/predibase.com/blog/deepseek-inlf-distillation-turbo-peculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-cotainer/