Spekulative Decodierung in Deepseek-R1: Beschleunigung der Inferenzgeschwindigkeit

Wie wirkt sich die spekulative Dekodierung auf die Gesamtlatenz von Deepseek-R1 aus

Die spekulative Decodierung ist eine Technik, mit der die Inferenzgeschwindigkeit großer Sprachmodelle wie Deepseek-R1 beschleunigt wird, indem ein kleineres Entwurfsmodell zur Generierung von Kandidaten-Token parallel generiert wird. Dieser Ansatz kann die Latenz erheblich verringern, indem das Modell mehrere Token gleichzeitig erzeugen kann, die dann durch das größere Modell überprüft werden, um die Genauigkeit zu gewährleisten. Während die spekulative Decodierung im Allgemeinen den Durchsatz verbessert, kann es aufgrund des Überprüfungsprozesses eine Variabilität der Latenz führen.

Wie spekulative Dekodierung funktioniert

1.. Parallele Token -Generation: Ein kleineres Entwurfsmodell generiert parallel mehrere Kandidaten -Token. Dies ist durch das größere Modell schneller als die sequentielle Erzeugung, da es die GPU -Beschleunigung effizienter verwendet [1] [3].

2. Überprüfungsprozess: Das größere Modell überprüft diese Kandidaten -Token. Wenn sie mit der erwarteten Ausgabe übereinstimmen, werden sie akzeptiert; Andernfalls sind nur die falschen Token neu berechnet [3] [9].

Auswirkungen auf die Latenz

- Reduzierte durchschnittliche Latenz: Spekulative Decodierung kann die durchschnittliche Latenz verringern, indem Token schneller erzeugt werden. Dies liegt daran, dass das Entwurfsmodell weniger Ressourcen benötigt und schneller arbeiten kann als das größere Modell [3] [5].

- Variable Latenz: Während die spekulative Decodierung den Gesamtdurchsatz verbessert, kann dies zu einer inkonsistenten Latenz führen. Wenn die Vorhersagen des Modells des Modells falsch sind, muss das größere Modell neu berechnen, was zu Spitzen in der Latenz führen kann [3] [9].

Deepseek-R1-Einzelheiten

Deepseek-R1 enthält Verbesserungen wie Multi-Southt-Vorhersage (MTP) und optimierte spekulative Decodierung, die die Inferenzgeschwindigkeit weiter verbessern. MTP ermöglicht es Deepseek-R1, mehrere Token parallel vorherzusagen und die Dekodierungslatenz ohne Kompromisskohärenz zu verringern [4]. Die optimierte spekulative Decodierung in Deepseek-R1 verwendet eine probabilistische Überprüfung der Vereinbarung, wobei Vorhersagen auf der Grundlage von Konfidenzschwellen anstelle von exakten Übereinstimmungen akzeptiert werden, was die Ablehnungsraten verringert und die Inferenz beschleunigt [4].

Insgesamt kann die spekulative Decodierung die Leistung von Deepseek-R1 erheblich verbessern, indem die durchschnittliche Latenz verringert und den Durchsatz verbessert wird, kann jedoch aufgrund des Überprüfungsprozesses eine Variabilität der Latenz führen.

Zitate:
[1] https://centml.ai/resources/2x-inferencespeed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitive-and-exhustely
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worted-on-thisspeculative-decode-version-activity-7293321395000819712-8yvc
[9] https://prredibase.com/blog/predibase.com/blog/deepseek-r1- self-distillation-turbo-speculation
[10] https://aws.amazon.com/blogs/machine-learning/deploy-yepseek-r1-distillieren-models-on-amazon-sagemaker-using-a-large-model-inference-container/