Спекулятивное декодирование-это метод, используемый для ускорения скорости вывода крупных языковых моделей, таких как DeepSeek-R1, путем использования меньшей черновой модели для получения токенов кандидатов параллельно. Этот подход может значительно снизить задержку, позволяя модели одновременно производить множественные токены, которые затем подтверждаются более крупной моделью для обеспечения точности. Однако, хотя спекулятивное декодирование обычно улучшает пропускную способность, оно может вводить изменчивость в задержке из -за процесса проверки.
Как работает спекулятивное декодирование
1. Параллельная генерация токенов: меньший черновик модель генерирует несколько токенов кандидатов параллельно. Это быстрее, чем последовательная генерация с помощью более крупной модели, потому что она использует более эффективное ускорение графического процессора [1] [3].
2. Процесс проверки: более крупная модель проверяет эти токены -кандидаты. Если они соответствуют ожидаемому результату, они принимаются; В противном случае только неправильные токены пересчитаны [3] [9].
влияние на задержку
- Средняя средняя задержка: спекулятивное декодирование может снизить среднюю задержку за счет более быстрого генерирования токенов. Это связано с тем, что проект модели требует меньше ресурсов и может работать быстрее, чем большая модель [3] [5].
- Переменная задержка: в то время как спекулятивное декодирование улучшает общую пропускную способность, это может привести к непоследовательной задержке. Когда прогнозы черновой модели неверны, более крупная модель должна пересчитываться, что может вызвать скачки в задержке [3] [9].
DeepSeek-R1 специфики
DeepSeek-R1 включает в себя усовершенствования, такие как предсказание мульти-ток (MTP) и оптимизированное спекулятивное декодирование, что еще больше улучшает скорость вывода. MTP позволяет DeepSeek-R1 прогнозировать множественные токены на параллельно, уменьшая латентность декодирования без ущерба для когерентности [4]. Оптимизированное спекулятивное декодирование в DeepSeek-R1 использует вероятностную проверку согласия, принимая прогнозы на основе порогов доверия, а не точных совпадений, что снижает скорость отклонения и ускоряет вывод [4].
В целом, спекулятивное декодирование может значительно повысить производительность DeepSeek-R1 за счет снижения средней задержки и повышения пропускной способности, но оно может ввести изменчивость в задержке из-за процесса проверки.
Цитаты:
[1] https://centml.ai/resources/2x-infere-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitively-and-exaustivess
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-tis-peculative-decode-version-activity-7293321395000819712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-sielf-distillation-turbo-speculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-infere-container/