Spekulatív dekódolás a mélyszám-R1-ben: A következtetési sebesség gyorsítása

Hogyan befolyásolja a spekulatív dekódolás a DeepSeek-R1 általános késleltetését

A spekulatív dekódolás egy olyan technika, amely a nagy nyelvű modellek, például a DeepSeek-R1 következtetési sebességének felgyorsítására szolgál, egy kisebb vázlat modell kihasználásával, hogy párhuzamosan generáljon jelölt tokenek. Ez a megközelítés jelentősen csökkentheti a késleltetést azáltal, hogy lehetővé teszi a modell számára, hogy egyszerre több tokent készítsen, amelyeket a nagyobb modell ellenőrzi a pontosság biztosítása érdekében. Noha a spekulatív dekódolás általában javítja az átviteli sebességet, az ellenőrzési folyamat miatt a késleltetés változékonyságát vezetheti be.

Hogyan működik a spekulatív dekódolás

1. párhuzamos token -generáció: Egy kisebb vázlat modell több jelölt token párhuzamosan generál. Ez a nagyobb modellnél gyorsabb, mint a szekvenciális generáció, mivel hatékonyabban használja a GPU gyorsulását [1] [3].

2. ellenőrzési folyamat: A nagyobb modell ellenőrzi ezeket a jelölt tokeneket. Ha megfelelnek a várt kimenetnek, akkor elfogadják őket; Ellenkező esetben csak a helytelen tokeneket számolják újra [3] [9].

Hatás a késésre

- Csökkent átlagos késleltetés: A spekulatív dekódolás gyorsabban csökkentheti az átlagos késleltetést. Ennek oka az, hogy a vázlatmodell kevesebb erőforrást igényel, és gyorsabban működhet, mint a nagyobb modell [3] [5].

- Változó késés: Noha a spekulatív dekódolás javítja az áteresztőképességet, ez következetlen késéshez vezethet. Ha a modell modelljének előrejelzései helytelenek, a nagyobb modellnek újra kell számolnia, ami latenciában tüskéket okozhat [3] [9].

Mély-R1 specifikumok

A DeepSeek-R1 olyan fejlesztéseket tartalmaz, mint a multi-token predikció (MTP) és az optimalizált spekulatív dekódolást, amelyek tovább javítják a következtetési sebességet. Az MTP lehetővé teszi a DeepSeek-R1 számára, hogy párhuzamosan megjósolja a több tokent, csökkentve a dekódolási késést anélkül, hogy veszélyeztetné a koherenciát [4]. Az optimalizált spekulatív dekódolás a DeepSeek-R1-ben valószínűségi megállapodások ellenőrzését használja, és a pontos egyezések helyett a konfidencia küszöbértékeken alapuló előrejelzéseket fogadja el, ami csökkenti az elutasítási arányokat és felgyorsítja a következtetéseket [4].

Összességében a spekulatív dekódolás jelentősen javíthatja a DeepSeek-R1 teljesítményét azáltal, hogy csökkenti az átlagos késleltetést és javítja az átviteli sebességet, de az ellenőrzési folyamat miatt a késleltetés változékonyságát vezetheti be.

Idézetek:
[1] https://centml.ai/resources/2x-inference-peed-on-R1
[2] https://iaee.substack.com/p/deepseek-r1-intitively-and-exhaustively
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-this-peculative-decode-version-activity-7293321395000819712-8YVC
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo spekuláció
[10] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a--Large-model-inference-container/