Varbūtības līguma pārbaude spekulatīvā dekodēšanā

Kāda loma ir varbūtības vienošanās pārbaude spekulatīvā dekodēšanā

Varbūtības nolīguma pārbaudei ir izšķiroša loma spekulatīvā dekodēšanā, nodrošinot, ka marķieri, ko rada mazāks "iegrimes" modelis, saskaņo ar lielāka bāzes modeļa izvades sadalījumu. Šis process ir būtisks, lai saglabātu ģenerētā teksta kvalitāti un konsekvenci, vienlaikus izmantojot spekulatīvas dekodēšanas piedāvātos efektivitātes ieguvumus.

Pārskats par spekulatīvu dekodēšanu

Spekulatīva dekodēšana ietver mazāka modeļa izmantošanu, ko bieži dēvē par spekulatoru vai melnrakstu modeli, lai prognozētu nākamos dažus žetonus secībā. Pēc tam šīs prognozes tiek pārbaudītas, salīdzinot ar lielāka, precīzāka modeļa (bāzes modeli) izvadi, lai pārliecinātos, ka tās ir ticamas atbilstoši bāzes modeļa sadalījumam [1] [4]. Šis verifikācijas solis ir iespējama varbūtības nolīguma pārbaude.

Varbūtības līguma pārbaude

1. Pārbaudes process: Pēc tam, kad modeļa iegrime ģenerē marķieri, tāda pati ievade tiek ievadīta bāzes modelī, lai prognozētu nākamo marķieri. Modeļa modeļa radītā marķiera varbūtība tiek salīdzināta ar bāzes modeļa piešķirto varbūtību. Ja modeļa marķierim ir mazāka vai vienāda ar bāzes modeļa piešķirto varbūtību, tā tiek pieņemta; Pretējā gadījumā tas tiek noraidīts [1].

2. Varbūtības izlīdzināšana: mērķis ir nodrošināt, lai modeļa izvadi būtu saskaņoti ar bāzes modeļa sadalījumu. Šī izlīdzināšana ir būtiska, jo tā ļauj spekulatīvai dekodēšanai ģenerēt žetonus, kurus, iespējams, pieņem bāzes modelis, tādējādi saglabājot izejas kvalitāti, vienlaikus paātrinot secinājumu procesu [1] [4].

3. Efektivitāte un kvalitātes kompromiss: Varbūtības nolīguma pārbaude palīdz līdzsvarot efektivitāti un kvalitāti. Pieņemot žetonus, kas, iespējams, ir saskaņā ar bāzes modeli, spekulatīva dekodēšana paralēli var ģenerēt vairākus žetonus, neapdraudot izejas kvalitāti. Šī pieeja ievērojami samazina latentumu, salīdzinot ar tradicionālajiem autoregresīvajiem modeļiem, kas secīgi ģenerē žetonus [4] [5].

4. Adaptācija dažādiem scenārijiem: Vairāku paraugu secinājumu scenārijos varbūtības nolīguma pārbaudi var pielāgot, lai izmantotu vienprātību pa paralēlo paaudzes ceļiem. Analizējot strukturālos modeļus un apkopojot vienprātības marķieru sekvences, spekulatīva dekodēšana var uzlabot pieņemšanas līmeņa noteikšanu un samazināt latentumu, neprasot ārējus modeļus vai datu bāzes [2].

Secinājums

Rezumējot, varbūtības nolīguma pārbaude ir būtiska spekulatīvas dekodēšanas sastāvdaļa, nodrošinot, ka paralēlās apstrādes efektivitātes ieguvumi neapdraud radītā teksta kvalitāti. Pārbaudot modeļa izvadu izlīdzināšanu ar bāzes modeļa sadalījumu, spekulatīva dekodēšana var sasniegt ievērojamus ātruma uzlabojumus, saglabājot izejas kvalitāti.

Atsauces:
[1.]
[2] https://arxiv.org/html/2503.05330v1
[3] https://arxiv.org/html/2412.10418v2
.
[5] https://mlops.substack.com/p/speculative-decding-for-llm
[6] https://openreview.net/pdf?id=wsqpnemvlu
[7] https://philkrav.com/posts/speculative/
[8] https://www.reddit.com/r/localllama/comments/1iu8f7s/speculative_decoding_can_idenfy_broken_quants/