Spekulatīva dekodēšana ir paņēmiens, ko izmanto, lai paātrinātu lielo valodu modeļu, piemēram, DeepSEEK-R1, secinājumu ātrumu, izmantojot mazāku melnraksta modeli, lai paralēli izveidotu kandidātu žetonus. Šī pieeja var ievērojami samazināt latentumu, ļaujot modelim vienlaicīgi ražot vairākus žetonus, kurus pēc tam pārbauda lielāks modelis, lai nodrošinātu precizitāti. Tomēr, lai arī spekulatīva dekodēšana parasti uzlabo caurlaidspēju, verifikācijas procesa dēļ tā var ieviest latentuma mainīgumu.
Kā darbojas spekulatīva dekodēšana
1. Paralēlas žetonu paaudze: mazāks modeļa projekts paralēli ģenerē vairākus kandidātu žetonus. Tas ir ātrāks nekā secīga ģenerēšana pēc lielāka modeļa, jo tas efektīvāk izmanto GPU paātrinājumu [1] [3].
2. Pārbaudes process: lielāks modelis pārbauda šos kandidātu marķierus. Ja tie atbilst paredzamajai izlaidei, tie tiek pieņemti; Pretējā gadījumā pārrēķina tikai nepareizus žetonus [3] [9].
Ietekme uz latentumu
- Samazināts vidējais latentums: spekulatīva dekodēšana var samazināt vidējo latentumu, ātrāk ģenerējot žetonus. Tas notiek tāpēc, ka modeļa projektam ir nepieciešami mazāk resursu un var darboties ātrāk nekā lielāks modelis [3] [5].
- Mainīgs latentums: Kaut arī spekulatīva dekodēšana uzlabo kopējo caurlaidspēju, tā var izraisīt nekonsekventu latentumu. Kad modeļa prognozes nav pareizas, lielākam modelim ir jāpārrēķina, kas var izraisīt latentuma pieaugumu [3] [9].
DeepSeek-R1 specifika
DeepSEEK-R1 ir iekļauti tādi uzlabojumi kā daudzpakāpju prognozēšana (MTP) un optimizēta spekulatīva dekodēšana, kas vēl vairāk uzlabo secinājumu ātrumu. MTP ļauj DeepSEEK-R1 paralēli paredzēt vairākus žetonus, samazinot dekodējošo latentumu, neapdraudot saskaņotību [4]. Optimizētā spekulatīvā dekodēšana DeepSEEK-R1 izmanto varbūtības nolīguma pārbaudi, pieņemot prognozes, kuru pamatā ir ticamības sliekšņi, nevis precīzas atbilstības, kas samazina noraidījuma līmeni un paātrina secinājumus [4].
Kopumā spekulatīva dekodēšana var ievērojami uzlabot DeepSEEK-R1 veiktspēju, samazinot vidējo latentumu un uzlabojot caurlaidspēju, taču verifikācijas procesa dēļ tā var ieviest latentuma mainīgumu.
Atsauces:
[1.]
[2.]
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
.
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
.