Spekulatiivne dekodeerimine DeepSEEK-R1-s: järelduste kiiruse kiirendamine

Kuidas mõjutab spekulatiivne dekodeerimine DeepSEEK-R1 üldist latentsusaega

Spekulatiivne dekodeerimine on tehnika, mida kasutatakse suurte keelemudelite nagu Deepseek-R1 järelduskiiruse kiirendamiseks, kasutades väiksema mustandimudeli paralleelselt kandidaatide genereerimiseks. See lähenemisviis võib märkimisväärselt vähendada latentsust, võimaldades mudelil toota samaaegselt mitut žetooni, mida seejärel täpsuse tagamiseks kontrollib suurem mudel. Kuigi spekulatiivne dekodeerimine parandab üldiselt läbilaskevõimet, võib see kontrolliprotsessi tõttu latentsuse varieeruvust tuua.

Kuidas spekulatiivne dekodeerimine toimib

1. Paralleelne sümboolne genereerimine: väiksem mustandimudel genereerib paralleelselt mitu kandidaatmärki. See on suurema mudeli abil kiirem kui järjestikune genereerimine, kuna see kasutab GPU kiirendust tõhusamalt [1] [3].

2. kontrollimisprotsess: suurem mudel kontrollib neid kandidaatide žetoone. Kui need vastavad eeldatava väljundile, võetakse nad vastu; Vastasel juhul arvutatakse ümber ainult valed märgid [3] [9].

Mõju latentsusele

- Vähendatud keskmine latentsus: spekulatiivne dekodeerimine võib vähendada keskmist latentsusaega, genereerides žetoone kiiremini. Selle põhjuseks on asjaolu, et mudeli mustand nõuab vähem ressursse ja suudab töötada kiiremini kui suurem mudel [3] [5].

- Muutuv latentsus: kuigi spekulatiivne dekodeerimine parandab üldist läbilaskevõimet, võib see põhjustada ebajärjekindlat latentsusaega. Kui mustandi mudeli ennustused on valed, peab suurem mudel arvutama ümber, mis võib põhjustada latentsusaja naelu [3] [9].

Deepseek-R1 spetsiifika

Deepseek-R1 hõlmab selliseid täiustusi nagu mitmetoimeline ennustus (MTP) ja optimeeritud spekulatiivne dekodeerimine, mis parandavad veelgi järelduste kiirust. MTP võimaldab DeepSEEK-R1-l ennustada mitut žetooni paralleelselt, vähendades dekodeeriva latentsusaega, kahjustamata sidusust [4]. Optimeeritud spekulatiivne dekodeerimine DeepSEEK-R1-s kasutab tõenäosusliku kokkuleppe kontrollimist, aktsepteerides ennustusi, mis põhinevad usalduskünnistel, mitte täpsetel vastetel, mis vähendab tagasilükkamise määra ja kiirendab järeldusi [4].

Üldiselt võib spekulatiivne dekodeerimine märkimisväärselt parandada DeepSEEK-R1 jõudlust, vähendades keskmist latentsusaega ja parandades läbilaskevõimet, kuid see võib kontrollida kontrolliprotsessi tõttu latentsuse varieeruvust.

Tsitaadid:
[1] https://centml.ai/resources/2x-inferen-peed-on-r1
]
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
]
[7] https://arxiv.org/html/2502.02789
]
]
]