DeepSeek-R1: Spekulatīvas dekodēšanas uzlabošana ar RL balstītu ekspertu maršrutēšanu

Vai varat paskaidrot, kā uz RL balstīta eksperta maršrutēšana uzlabo spekulatīvu dekodēšanu DeepSeek-R1

DeepSEEK-R1 uzlabo spekulatīvu dekodēšanu, izmantojot vairākus galvenos jauninājumus, ieskaitot pastiprināšanas mācīšanos (RL) bāzes ekspertu maršrutēšanu un daudzstāvu prognozēšanu (MTP). Lūk, kā uz RL balstīts eksperts maršrutēšana veicina spekulatīvu dekodēšanu:

uz RL balstīta ekspertu maršrutēšana

1. Šī ir atkāpe no statiskām maršrutēšanas metodēm, ko izmanto iepriekšējos modeļos, piemēram, DeepSeek-V3. RL politika, kas apzīmēta kā $$ \ pi _ {\ theta} $$, pielāgo varbūtību izvēlēties ekspertu $$ e_i $$ marķierim $$ t $$, pamatojoties uz marķieru iegulumiem $$ u_t $$ [1].

2. Optimizācijas mērķis: RL politika tiek optimizēta, izmantojot grupas relatīvās politikas optimizācijas (GRPO) sistēmu. GRPO mērķis ir maksimāli palielināt kumulatīvo atlīdzību, vienlaikus samazinot maršrutēšanas entropiju un novēršot īpašu ekspertu pārslodzi. Tas nodrošina, ka žetoni tiek efektīvi sadalīti starp ekspertiem, optimizējot gan slodzes līdzsvarošanas, gan secinājumu ātrumu [1].

3. Šī pielāgošanās spējas ļauj modelim pilnveidot savu marķieru papildināšanas kartēšanu laika gaitā, uzlabojot secinājumu efektivitāti, neapdraudot precizitāti [1].

Ietekme uz spekulatīvu dekodēšanu

Spekulatīva dekodēšana DeepSEEK-R1 ietver vairāku žetonu prognozēšanu paralēli un to pārbaudi pirms izvades pabeigšanas. Uz RL balstīts eksperts maršrutēšana uzlabo spekulatīvu dekodēšanu:

- Žetonu prognozēšanas efektivitātes uzlabošana: dinamiski optimizējot marķieru piešķiršanu un slodzes līdzsvarošanu, uz RL balstīta maršrutēšana nodrošina, ka modelis var efektīvāk apstrādāt palielinātas spekulatīvas dekodēšanas aprēķināšanas prasības. Tas ļauj ātrāk ģenerēt vairākus žetonus, nezaudējot koherenci vai precizitāti [1] [2].

-Modeļa pielāgošanās uzlabošana: RL balstītas maršrutēšanas adaptīvais raksturs ļauj DeepSEEK-R1 pielāgot tās marķiera prognozēšanas stratēģijas, pamatojoties uz ievades secības sarežģītību un kontekstu. Šī pielāgošanās spēja ir būtiska, lai saglabātu augstas kvalitātes rezultātus spekulatīvas dekodēšanas laikā, kur modelim vienlaicīgi jāizstrādā un jāpārbauda vairāki žetoni [1] [4].

- Latentuma samazināšana: optimizējot maršrutēšanas procesu, DeepSEEK-R1 var ātrāk ģenerēt tekstu, saglabājot precizitāti. Šis latentuma samazinājums ir īpaši labvēlīgs spekulatīvai dekodēšanai, ja vienlaikus ģenerē vairākus žetonus uzreiz paātrina kopējo secinājumu procesu [2] [3].

Rezumējot, uz RL balstīta eksperta maršrutēšana DeepSEEK-R1 uzlabo spekulatīvu dekodēšanu, uzlabojot marķiera prognozēšanas efektivitāti, modeļa pielāgošanās spēju un samazinot latentumu, un tas viss ir kritisks, lai saglabātu augstas kvalitātes rezultātus, vienlaikus paātrinot teksta ģenerēšanu.

Atsauces:
[1] https://aman.ai/primers/ai/deepseek-r1/
,
[3] https://neuralmagic.com/blog/optimizing-vllm-for-depseek-r1/
[4] https://www.thewirechina.com/wp-content/uploads/2025/01/deepseek-r1-document.pdf
[5] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[6] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-depseek-r1-distille-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[7] https://huggingface.co/papers?q=deepseek-r1
[8] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
[9] https://aws.amazon.com/blogs/machine-learning/deploy-depseek-r1-distille-models-on-amazon-sagemaker-using-a-large-model-inference-container/