Spekulacyjne dekodowanie w Deepseek-R1: przyspieszanie prędkości wnioskowania

W jaki sposób dekodowanie spekulacyjne wpływa na ogólne opóźnienie Deepseek-R1

Dekodowanie spekulacyjne jest techniką stosowaną do przyspieszenia prędkości wnioskowania dużych modeli językowych, takich jak DeepSeek-R1 poprzez wykorzystanie mniejszego modelu szkicu w celu generowania równolegle kandydujących tokeny. Takie podejście może znacznie zmniejszyć opóźnienie, umożliwiając modelu jednocześnie wytwarzanie wielu tokenów, które są następnie weryfikowane przez większy model w celu zapewnienia dokładności. Jednakże, chociaż dekodowanie spekulacyjne ogólnie poprawia przepustowość, może wprowadzić zmienność opóźnienia z powodu procesu weryfikacji.

Jak działa spekulacyjne dekodowanie

1. Generowanie tokenów równoległych: Mniejszy model projektu generuje wiele tokenów kandydujących równolegle. Jest to szybsze niż generowanie sekwencyjne przez większy model, ponieważ bardziej wydajnie wykorzystuje przyspieszenie GPU [1] [3].

2. Proces weryfikacji: Większy model weryfikuje te kandydujące tokeny. Jeśli pasują do oczekiwanej wydajności, są akceptowane; W przeciwnym razie tylko niepoprawne tokeny są ponownie obliczone [3] [9].

Wpływ na opóźnienie

- Zmniejszone średnie opóźnienie: Dekodowanie spekulacyjne może zmniejszyć średnie opóźnienie poprzez szybsze generowanie tokenów. Wynika to z faktu, że model projektu wymaga mniej zasobów i może działać szybciej niż większy model [3] [5].

- Zmienne opóźnienie: Podczas gdy dekodowanie spekulacyjne poprawia ogólną przepustowość, może prowadzić do niespójnego opóźnienia. Gdy prognozy projektu modelu są nieprawidłowe, większy model musi się ponownie obliczyć, co może powodować skoki opóźnienia [3] [9].

DeepSeek-R1 Specyfiki

DeepSeek-R1 zawiera ulepszenia, takie jak prognoza wielofunkcyjna (MTP) i zoptymalizowane dekodowanie spekulacyjne, które dodatkowo poprawiają prędkość wnioskowania. MTP pozwala DeepSeek-R1 na przewidywanie wielu tokenów równolegle, zmniejszając opóźnienie dekodowania bez uszczerbku dla spójności [4]. Zoptymalizowane spekulacyjne dekodowanie w DeepSeek-R1 wykorzystuje sprawdzanie zgody probabilistycznej, akceptując prognozy oparte na progach ufności, a nie dokładnych dopasowaniach, co zmniejsza wskaźniki odrzucenia i przyspiesza wnioskowanie [4].

Ogólnie rzecz biorąc, dekodowanie spekulacyjne może znacznie zwiększyć wydajność DeepSeek-R1 poprzez zmniejszenie średniego opóźnienia i poprawę przepustowości, ale może wprowadzić zmienność opóźnienia z powodu procesu weryfikacji.

Cytaty:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitively-and-exhaustyvely
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-hworked-on-this-speculative-decode-eversion-aktywność-7293321395000819712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
[10] https://aws.amazon.com/blogs/machine-loarning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/