DeepSeek-R1 poprawia spekulacyjne dekodowanie poprzez kilka kluczowych innowacji, w tym eksperckie routing oparty na wzmocnieniu (RL) i prognozowanie wielu tokenów (MTP). Oto, w jaki sposób ekspert oparty na RL przyczynia się do spekulatywnego dekodowania:
RL oparte na eksperymentach routingu
1. Dynamiczne przypisanie tokenu: DeepSeek-R1 używa RL do dynamicznego przypisywania tokenów ekspertom na podstawie osadzania kontekstowych. Jest to odejście od statycznych metod routingu stosowanych we wcześniejszych modelach, takich jak Deepseek-V3. Polityka RL, oznaczona jako $$ \ pi _ {\ theta} $$, dostosowuje prawdopodobieństwo wybrania eksperta $$ e_i $$ za token $$ t $$ na podstawie osadzania tokenów $$ u_t $$ [1].
2. Cel optymalizacji: Polityka RL jest zoptymalizowana przy użyciu grupy względnej optymalizacji polityki (GRPO). GRPO ma na celu maksymalizację skumulowanej nagrody przy jednoczesnym minimalizowaniu entropii routingu i zapobiegania przeciążeniu określonych ekspertów. Zapewnia to, że tokeny są skutecznie rozmieszczone między ekspertami, optymalizując zarówno równoważenie obciążenia, jak i prędkość wnioskowania [1].
3. Warunki odchylenia dynamicznego: Funkcja routingu zawiera dynamiczne terminy odchylenia, które modulują selekcję ekspertów na podstawie informacji zwrotnych. Ta zdolność adaptacyjna pozwala modelowi udoskonalić mapowanie tokenu z czasem, zwiększając wydajność wnioskowania bez uszczerbku dla dokładności [1].
Wpływ na dekodowanie spekulacyjne
Spekulacyjne dekodowanie w DeepSeek-R1 obejmuje przewidywanie wielu tokenów równolegle i weryfikację ich przed sfinalizowaniem wyjścia. Ruting ekspertów w oparciu o RL poprawia spekulacyjne dekodowanie przez:
- Poprawa wydajności prognozowania tokena: poprzez dynamiczną optymalizację przypisywania tokena i równoważenie obciążenia, routing oparty na RL zapewnia, że model może bardziej skutecznie poradzić sobie z wymaganiami obliczeniowymi spekulacji. Pozwala to na szybsze generowanie wielu tokenów bez poświęcania spójności lub dokładności [1] [2].
-Ulepszanie możliwości dostosowania modelu: Adaptacyjny charakter routingu opartego na RL umożliwia DeepSeek-R1 dostosowanie strategii prognozowania tokena w oparciu o złożoność i kontekst sekwencji wejściowej. Ta zdolność adaptacyjna ma kluczowe znaczenie dla utrzymania wysokiej jakości wyjściowych podczas spekulatywnego dekodowania, w którym model musi przewidzieć i weryfikować wiele tokenów jednocześnie [1] [4].
- Zmniejszenie opóźnienia: Optymalizując proces routingu, DeepSeek-R1 może szybciej generować tekst, zachowując dokładność. To zmniejszenie opóźnienia jest szczególnie korzystne dla spekulatywnego dekodowania, gdzie generowanie wielu tokenów jednocześnie znacznie przyspiesza ogólny proces wnioskowania [2] [3].
Podsumowując, ekspert oparty na RL w DeepSeek-R1 poprawia spekulacyjne dekodowanie poprzez poprawę wydajności prognozowania tokena, możliwości adaptacji modelu i zmniejszaniu opóźnień, z których wszystkie są kluczowe dla utrzymania wysokiej jakości wyjściowych przy jednoczesnym przyspieszeniu wytwarzania tekstu.
Cytaty:
[1] https://aman.ai/primers/ai/deepseek-r1/
[2] https://centml.ai/resources/2x-inference-speed-on-r1
[3] https://neuralmagic.com/blog/optimizing-vllm-for-deepseek-r1/
[4] https://www.thewirechina.com/wp-content/uploads/2025/01/deepseek-r1-document.pdf
[5] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[6] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[7] https://huggingface.co/papers?q=Deepseek-R1
[8] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
[9] https://aws.amazon.com/blogs/machine-loarning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/