Le décodage spéculatif est une technique utilisée pour accélérer la vitesse d'inférence des modèles de grande langue comme Deepseek-R1 en tirant parti d'un modèle de projet plus petit pour générer des jetons candidats en parallèle. Cette approche peut réduire considérablement la latence en permettant au modèle de produire plusieurs jetons simultanément, qui sont ensuite vérifiés par le modèle plus grand pour garantir la précision. Cependant, bien que le décodage spéculatif améliore généralement le débit, il peut introduire une variabilité de latence due au processus de vérification.
Comment fonctionne le décodage spéculatif
1. Génération de jetons parallèles: un modèle de projet plus petit génère plusieurs jetons candidats en parallèle. Ceci est plus rapide que la génération séquentielle par le modèle plus grand car il utilise plus efficacement l'accélération du GPU [1] [3].
2. Processus de vérification: le modèle plus grand vérifie ces jetons candidats. S'ils correspondent à la sortie attendue, ils sont acceptés; Sinon, seuls les jetons incorrects sont recalculés [3] [9].
Impact sur la latence
- la latence moyenne réduite: le décodage spéculatif peut réduire la latence moyenne en générant des jetons plus rapidement. En effet, le modèle de projet nécessite moins de ressources et peut fonctionner plus rapidement que le modèle plus grand [3] [5].
- latence variable: Bien que le décodage spéculatif améliore le débit global, il peut conduire à une latence incohérente. Lorsque les prédictions du trait du modèle sont incorrectes, le modèle plus grand doit recalculer, ce qui peut provoquer des pointes de latence [3] [9].
spécificiaires Deepseek-R1
Deepseek-R1 intègre des améliorations telles que la prédiction multi-token (MTP) et le décodage spéculatif optimisé, qui améliore encore la vitesse d'inférence. MTP permet à Deepseek-R1 de prédire plusieurs jetons en parallèle, réduisant la latence de décodage sans compromettre la cohérence [4]. Le décodage spéculatif optimisé dans Deepseek-R1 utilise la vérification de l'accord probabiliste, acceptant les prédictions basées sur les seuils de confiance plutôt que sur des correspondances exactes, ce qui réduit les taux de rejet et accélère l'inférence [4].
Dans l'ensemble, le décodage spéculatif peut améliorer considérablement les performances de Deepseek-R1 en réduisant la latence moyenne et en améliorant le débit, mais il peut introduire une variabilité de latence en raison du processus de vérification.
Citations:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intualily-and-exhausly
[3] https://www.thegister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/Draft_Model_Speculative_decoding_performance_With/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-this-speculative-decode-version-activity-7293321395000819712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-elf-distillation-turbo-speculating
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distill--models-on-amazon-sagemaker-using-a-large-model-inférence-Container/