La decodifica speculativa è una tecnica utilizzata per accelerare la velocità di inferenza di modelli di grandi dimensioni come DeepSeek-R1 sfruttando un modello di bozza più piccolo per generare token candidati in parallelo. Questo approccio può ridurre significativamente la latenza consentendo al modello di produrre più token contemporaneamente, che vengono quindi verificati dal modello più ampio per garantire l'accuratezza. Tuttavia, mentre la decodifica speculativa generalmente migliora il throughput, può introdurre la variabilità della latenza a causa del processo di verifica.
come funziona la decodifica speculativa
1. Generazione di token paralleli: un modello di bozza più piccolo genera più token candidati in parallelo. Ciò è più veloce della generazione sequenziale dal modello più grande perché utilizza l'accelerazione GPU in modo più efficiente [1] [3].
2. Processo di verifica: il modello più grande verifica questi token candidati. Se corrispondono all'output previsto, sono accettati; Altrimenti, solo i token errati vengono ricalcolati [3] [9].
Impatto sulla latenza
- Latenza media ridotta: la decodifica speculativa può ridurre la latenza media generando token più rapidamente. Questo perché il modello di bozza richiede meno risorse e può funzionare più velocemente del modello più grande [3] [5].
- Latenza variabile: mentre la decodifica speculativa migliora il throughput complessivo, può portare a latenza incoerente. Quando le previsioni del modello di bozza sono errate, il modello più grande deve ricalcolare, che può causare picchi di latenza [3] [9].
Specifiche DeepSeek-R1
DeepSeek-R1 incorpora miglioramenti come la previsione multi-token (MTP) e la decodifica speculativa ottimizzata, che migliorano ulteriormente la velocità di inferenza. MTP consente a DeepSeek-R1 di prevedere più token in parallelo, riducendo la latenza di decodifica senza compromettere la coerenza [4]. La decodifica speculativa ottimizzata in DeepSeek-R1 utilizza il controllo di accordo probabilistico, accettando previsioni basate su soglie di confidenza anziché su corrispondenze esatte, che riducono i tassi di rifiuto e accelera l'inferenza [4].
Nel complesso, la decodifica speculativa può migliorare significativamente le prestazioni di DeepSeek-R1 riducendo la latenza media e migliorando la produttività, ma può introdurre variabilità in latenza a causa del processo di verifica.
Citazioni:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitive-and-exhaustative
[3] https://www.theregister.com/2024/12/15/specolative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_specolative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-this-specolative-decode-version-activity-7293321395000819712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-selfistillation-turbo-specolation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/