„Deepseek-R1“: Spekuliacinio dekodavimo su RL pagrįsto ekspertų maršruto gerinimas

Ar galite paaiškinti, kaip RL pagrįstas ekspertų maršrutas pagerina spekuliatyvų dekodavimą „Deepseeek-R1“

„Deepseek-R1“ pagerina spekuliatyvų dekodavimą per keletą pagrindinių naujovių, įskaitant armatūros mokymąsi (RL) pagrįstą ekspertų maršrutų parinkimą ir daugialypę prognozę (MTP). Štai kaip RL pagrįstas ekspertų maršrutas prisideda prie spekuliacinio dekodavimo:

RL pagrįstas ekspertų maršrutas

1. Dinaminė žetonų priskyrimas: „Deepseek-R1“ naudoja RL, kad dinamiškai priskirtų žetonus ekspertams, pagrįsti kontekstiniais įterpimais. Tai yra nukrypimas nuo statinio maršruto parinkimo metodų, naudojamų ankstesniuose modeliuose, tokiuose kaip „Deepseek-V3“. RL politika, pažymėta kaip $$ \ pi _ {\ theta} $$, koreguoja tikimybę pasirinkti ekspertą $$ e_i $ $ už žetoną $ $ t $$, remiantis ženklo įterptėmis $$ u_t $ $ [1].

2. Optimizavimo tikslas: RL politika yra optimizuota naudojant grupės santykinės politikos optimizavimo (GRPO) sistemą. GRPO siekia maksimaliai padidinti kaupiamąjį atlygį, tuo pačiu sumažinant maršruto entropiją ir užkirsti kelią konkrečių ekspertų perkrovai. Tai užtikrina, kad žetonai būtų efektyviai pasiskirstę tarp ekspertų, optimizuodami apkrovos balansavimą ir išvadų greitį [1].

3. Dinaminiai šališkumo terminai: maršruto parinkimo funkcija apima dinaminius šališkumo terminus, moduliuojančius ekspertų atranką, remiantis mokymo atsiliepimais. Šis pritaikomumas leidžia modeliui patobulinti savo žetonų ir eksperto žemėlapius laikui bėgant, padidindamas išvadų efektyvumą nepakenkiant tikslumui [1].

Poveikis spekuliaciniam dekodavimui

Spekuliacinis dekodavimas „Deepseeek-R1“ apima lygiagrečiai numatymą kelis žetonus ir juos patikrinti prieš baigdami išvestį. RL pagrįstas ekspertų maršrutas pagerina spekuliatyvų dekodavimą:

- Gerinant žetonų numatymo efektyvumą: Dinamiškai optimizuodamas žetonų priskyrimą ir apkrovos balansavimą, RL pagrįstas maršrutas užtikrina, kad modelis galėtų patenkinti padidėjusius skaičiavimo reikalavimus, susijusius su spekuliatyvaus dekodavimo reikalavimais efektyviau. Tai leidžia greičiau sugeneruoti kelis žetonus, neprarandant darnos ar tikslumo [1] [2].

-Patobulinus modelio pritaikomumą: RL pagrįsto maršruto pritaikymo adaptacinis pobūdis leidžia „Deepseek-R1“ pakoreguoti savo prieskoninių numatymo strategijas, pagrįstus įvesties sekos sudėtingumu ir kontekstu. Šis pritaikomumas yra labai svarbus norint išlaikyti aukštos kokybės išėjimą spekuliacinio dekodavimo metu, kai modelis turi numatyti ir patikrinti kelis žetonus vienu metu [1] [4].

- Latencijos sumažinimas: optimizuodamas maršruto parinkimo procesą, „Deepseeek-R1“ gali greičiau sugeneruoti tekstą, išlaikydamas tikslumą. Šis latencijos sumažėjimas yra ypač naudingas spekuliaciniam dekodavimui, kai kelis žetonų generavimas iš karto žymiai pagreitina bendrą išvadų procesą [2] [3].

Apibendrinant galima pasakyti, kad RL pagrįstas ekspertų maršrutas „Deepseek-R1“ padidina spekuliatyvų dekodavimą, pagerindama ženklo numatymo efektyvumą, pritaikant modelį ir mažinant delsą, kurie visi yra labai svarbūs palaikant aukštos kokybės rezultatus, tuo pačiu padidinant teksto generavimą.

Citatos:
[1] https://aman.ai/primers/ai/deepseek-r1/
[2] https://centml.ai/resources/2x-inference-speed-on-r1
[3] https://neuralmagic.com/blog/optimizing-vllm-for-deepseek-r1/
[4] https://www.thewirechina.com/wp-content/uploads/2025/01/deepseek-r1-document.pdf
[5] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculations_decoding_performance_with/
[6] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-on-on-amazon-sagemaker-ai/
[7] https://huggingface.co/papers?q=deepseek-r1
[8] https://predibase.com/blog/predbase.com/blog/deepseek-r1-self-distillation-urbo-speculation
[9] https://aws.amazon.com/blogs/machine-learning/depall-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/