DeepSeek-R1: Посилення спекулятивного декодування за допомогою експертної маршрутизації на основі RL

Deepseek-R1 посилює спекулятивне декодування за допомогою декількох ключових інновацій, включаючи експертне маршрутизацію на основі підкріплення (RL) та багатопробний прогноз (MTP). Ось як експертна маршрутизація на основі RL сприяє спекулятивному декодуванню:

Експертна маршрутизація на базі RL

1. Динамічне призначення токенів: DeepSeek-R1 використовує RL для динамічного призначення жетонів експертам на основі контекстних вбудовань. Це відхід від статичних методів маршрутизації, що використовуються в попередніх моделях, таких як DeepSeek-V3. Політика RL, позначена як $$ \ pi _ {\ theta} $$, коригує ймовірність вибору експерта $$ e_i $$ для Token $$ t $$ на основі вбудованих жетонів $$ u_t $$ [1].

2. Мета оптимізації: Політика RL оптимізована за допомогою групи оптимізації відносної політики (GRPO). GRPO має на меті максимізувати кумулятивну винагороду, мінімізуючи ентропію маршрутизації та запобігання перевантаженню конкретних експертів. Це гарантує, що жетони ефективно розподіляються для експертів, оптимізуючи як балансування навантаження, так і швидкість висновку [1].

3. Динамічні умови зміщення: Функція маршрутизації включає в себе динамічні умови зміщення, які модулюють відбір експертів на основі відгуків про навчання. Ця пристосованість дозволяє моделі вдосконалити своє відображення токен-експерта з часом, підвищуючи ефективність висновку без шкоди точності [1].

Вплив на спекулятивне декодування

Спекулятивне декодування в DeepSeek-R1 передбачає прогнозування декількох жетонів паралельно та перевірку їх перед завершенням результату. Експертна маршрутизація на основі RL посилює спекулятивне декодування:

- Поліпшення ефективності прогнозування токенів: Динамічно оптимізуючи присвоєння жетонів та балансування навантаження, маршрутизація на основі RL гарантує, що модель може більш ефективно впоратися з обчислювальними вимогами спекулятивного декодування. Це дозволяє швидше генерувати множинні жетони, не жертвуючи узгодженістю чи точністю [1] [2].

-Підвищення адаптованості моделі: Адаптивний характер маршрутизації на основі RL дозволяє DeepSeek-R1 коригувати стратегії прогнозування токенів, засновані на складності та контексті послідовності введення. Ця адаптованість має вирішальне значення для підтримки високоякісних результатів під час спекулятивного декодування, де модель повинна прогнозувати та перевіряти кілька жетонів одночасно [1] [4].

- Зменшення затримки: Оптимізуючи процес маршрутизації, DeepSeek-R1 може швидше генерувати текст, зберігаючи точність. Це зменшення затримки є особливо корисним для спекулятивного декодування, де генерування декількох жетонів одразу значно прискорює загальний процес висновку [2] [3].

Підводячи підсумок, експертна маршрутизація на основі RL в DeepSeek-R1 посилює спекулятивне декодування, покращуючи ефективність прогнозування токенів, адаптованість моделі та зменшення затримки, всі вони є критичними для підтримки високоякісних результатів, при цьому прискорюючи генерацію тексту.

Цитати:
[1] https://aman.ai/primers/ai/deepseek-r1/
[2] https://centml.ai/resources/2x-inference-speed-on-r1
[3] https://neuralmagic.com/blog/optimizing-vllm-for-deepseek-r1/
[4] https://www.thewirechina.com/wp-content/uploads/2025/01/deepseek-r1-document.pdf
[5] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[6] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distill-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[7] https://huggingface.co/papers?q=deepkeek-r1
[8] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
[9] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distill-models-on-amazon-sagemaker-using-a-large-model-inference-container/

Чи можете ви пояснити, як експертна маршрутизація на основі RL посилює спекулятивне декодування в DeepSeek-R1

Експертна маршрутизація на базі RL

Вплив на спекулятивне декодування