DeepSeek-R1 усиливает спекулятивную декодирование благодаря нескольким ключевым инновациям, включая экспертную маршрутизацию на основе подкрепления (RL) и предсказание мульти-ток (MTP). Вот как экспертная маршрутизация на основе RL способствует спекулятивному декодированию:
RL на основе экспертной маршрутизации
1. Динамическое назначение токенов: DeepSeek-R1 использует RL для динамического назначения токенов экспертам на основе контекстуальных встраиваний. Это отход от статических методов маршрутизации, используемых в более ранних моделях, таких как DeepSeek-V3. Политика RL, обозначенная как $$ \ pi _ {\ theta} $$, корректирует вероятность выбора эксперта $$ e_i $$ для Token $$ T $$ на основе Ellceddings Token $$ U_T $$ [1].
2. Цель Оптимизации: политика RL оптимизируется с использованием структуры относительной политики (GRPO). GRPO стремится максимизировать кумулятивное вознаграждение при минимизации энтропии маршрутизации и предотвращения перегрузки конкретных экспертов. Это гарантирует, что токены эффективно распределены по экспертам, оптимизируя как балансировку нагрузки, так и скорость вывода [1].
3. Динамические термины смещения. Эта адаптивность позволяет модели уточнить свое токеновое отображение с течением времени, повышая эффективность вывода без ущерба для точности [1].
влияние на спекулятивное декодирование
Спекулятивное декодирование в Deepseek-R1 включает в себя прогнозирование множественных токенов параллельно и их проверку перед завершением вывода. Экспертная маршрутизация на основе RL усиливает спекулятивную декодирование с помощью:
- Повышение эффективности прогнозирования токенов: путем динамической оптимизации назначения токенов и балансировки нагрузки маршрутизация на основе RL гарантирует, что модель может более эффективно справиться с повышенными вычислительными требованиями спекулятивного декодирования. Это обеспечивает более быстрое генерацию множественных токенов, не жертвуя когерентностью или точностью [1] [2].
-Повышение адаптивности модели: адаптивная природа маршрутизации на основе RL позволяет DeepSeek-R1 регулировать свои стратегии прогнозирования токенов на основе сложности и контекста входной последовательности. Эта адаптивность имеет решающее значение для поддержания высококачественных выходов во время спекулятивного декодирования, где модель должна предсказать и проверять множественные токены одновременно [1] [4].
- Снижение задержки: оптимизируя процесс маршрутизации, DeepSeek-R1 может быстрее генерировать текст при поддержании точности. Это снижение задержки особенно полезно для спекулятивного декодирования, где генерирование нескольких токенов одновременно значительно ускоряет общий процесс вывода [2] [3].
Таким образом, экспертная маршрутизация на основе RL в Deepseek-R1 усиливает спекулятивную декодирование за счет повышения эффективности прогнозирования токенов, адаптивности модели и снижения задержки, которые имеют решающее значение для поддержания высококачественных результатов при ускорении генерации текста.
Цитаты:
[1] https://aman.ai/primers/ai/deepseek-r1/
[2] https://centml.ai/resources/2x-infere-speed-on-r1
[3] https://neuralmagic.com/blog/optimize-vllm-for-deepseek-r1/
[4] https://www.thewirechina.com/wp-content/uploads/2025/01/deepseek-r1-document.pdf
[5] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[6] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-n-on-amazon-sagemaker-ai/
[7] https://huggingface.co/papers?q=deepseek-r1
[8] https://predibase.com/blog/predibase.com/blog/deepseek-r1-sielf-distillation-turbo-speculation
[9] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distillidal-models-on-amazon-sagemaker-using-a-large-model-infere-container/