Спекулятивне декодування в DeepSeek-R1: прискорення швидкості висновку

Спекулятивне декодування-це методика, яка використовується для прискорення швидкості висновку великих мовних моделей, таких як DeepSeek-R1, використовуючи меншу проект моделі для генерування кандидатів у паралельно. Цей підхід може значно зменшити затримку, дозволяючи моделі одночасно виробляти кілька жетонів, які потім перевіряються більшою моделлю для забезпечення точності. Однак, хоча спекулятивне декодування, як правило, покращує пропускну здатність, воно може ввести мінливість затримки через процес перевірки.

Як працює спекулятивне декодування

1. Паралельне генерація токенів: менша модель проекту генерує кілька жетонів -кандидатів паралельно. Це швидше, ніж послідовне генерація за більшою моделлю, оскільки вона використовує прискорення GPU більш ефективно [1] [3].

2. Процес перевірки: більша модель перевіряє ці жетони -кандидат. Якщо вони відповідають очікуваному виходу, вони приймаються; В іншому випадку перераховуються лише неправильні жетони [3] [9].

Вплив на затримку

- Зниження середньої затримки: спекулятивне декодування може зменшити середню затримку, швидше генеруючи жетони. Це пояснюється тим, що проект моделі вимагає менше ресурсів і може працювати швидше, ніж більша модель [3] [5].

- Забезпечення змінної: Хоча спекулятивне декодування покращує загальну пропускну здатність, це може призвести до непослідовної затримки. Коли прогнози проекту моделі невірні, більша модель повинна перерахувати, що може спричинити шипи в затримці [3] [9].

Deepseek-r1 специфіки

DeepSeek-R1 включає в себе вдосконалення, такі як багатопробний прогноз (MTP) та оптимізоване спекулятивне декодування, що ще більше покращує швидкість висновку. MTP дозволяє DeepSeek-R1 передбачити кілька жетонів паралельно, зменшуючи затримку декодування без шкоди узгодженості [4]. Оптимізоване спекулятивне декодування в DeepSeek-R1 використовує імовірнісну перевірку договору, приймаючи прогнози, засновані на порогах довіри, а не на точних відповідях, що знижує швидкість відхилення та прискорює висновок [4].

В цілому, спекулятивне декодування може значно підвищити продуктивність DeepSeek-R1 за рахунок зменшення середньої затримки та покращення пропускної здатності, але це може ввести мінливість затримки через процес перевірки.

Цитати:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-tuitive-and-exhaustile
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-this-specutative-decode-version-activity-7293321395000819712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distill-models-on-amazon-sagemaker-using-a-large-model-inference-container/

Як спекулятивне декодування впливає на загальну затримку DeepSeek-R1

Як працює спекулятивне декодування

Вплив на затримку

Deepseek-r1 специфіки