Decodificación especulativa en Deepseek-R1: velocidad de inferencia aceleradora

¿Cómo afecta la decodificación especulativa la latencia general de Deepseek-R1

La decodificación especulativa es una técnica utilizada para acelerar la velocidad de inferencia de modelos de idiomas grandes como Deepseek-R1 al aprovechar un modelo de borrador más pequeño para generar tokens candidatos en paralelo. Este enfoque puede reducir significativamente la latencia al permitir que el modelo produzca múltiples tokens simultáneamente, que luego son verificados por el modelo más grande para garantizar la precisión. Sin embargo, si bien la decodificación especulativa generalmente mejora el rendimiento, puede introducir la variabilidad en la latencia debido al proceso de verificación.

Cómo funciona la decodificación especulativa

1. Generación del token paralelo: un modelo de borrador más pequeño genera múltiples tokens candidatos en paralelo. Esto es más rápido que la generación secuencial por el modelo más grande porque utiliza la aceleración de GPU de manera más eficiente [1] [3].

2. Proceso de verificación: el modelo más grande verifica estos tokens candidatos. Si coinciden con la salida esperada, se aceptan; De lo contrario, solo se recalculan los tokens incorrectos [3] [9].

Impacto en la latencia

- Latencia promedio reducida: la decodificación especulativa puede reducir la latencia promedio al generar tokens más rápidamente. Esto se debe a que el modelo de borrador requiere menos recursos y puede operar más rápido que el modelo más grande [3] [5].

- Latencia variable: si bien la decodificación especulativa mejora el rendimiento general, puede conducir a una latencia inconsistente. Cuando las predicciones del modelo de borrador son incorrectas, el modelo más grande debe recalcular, lo que puede causar picos en la latencia [3] [9].

detalles de Deepseek-R1

Deepseek-R1 incorpora mejoras como la predicción múltiple (MTP) y la decodificación especulativa optimizada, que mejoran aún más la velocidad de inferencia. MTP permite que Deepseek-R1 predice múltiples tokens en paralelo, reduciendo la latencia de decodificación sin comprometer la coherencia [4]. La decodificación especulativa optimizada en Deepseek-R1 utiliza la verificación de acuerdo probabilístico, aceptando predicciones basadas en umbrales de confianza en lugar de coincidencias exactas, lo que reduce las tasas de rechazo y acelera la inferencia [4].

En general, la decodificación especulativa puede mejorar significativamente el rendimiento de Deepseek-R1 al reducir la latencia promedio y mejorar el rendimiento, pero puede introducir la variabilidad en la latencia debido al proceso de verificación.

Citas:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitivamente-and-exhaustivamente
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i- worked-on-this-speculative-decode-version-activity-7293321395000819712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculación
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/