Špekulativno dekodiranje v Deepseek-R1: pospeševanje hitrosti sklepanja

Kako špekulativno dekodiranje vpliva na splošno zamudo Deepseek-R1

Špekulativno dekodiranje je tehnika, ki se uporablja za pospeševanje hitrosti sklepanja velikih jezikovnih modelov, kot je Deepseek-R1, tako da uporabimo manjši model osnutka za vzporedno ustvarjanje kandidatnih žetonov. Ta pristop lahko znatno zmanjša zamude, tako da modelu omogoči, da hkrati proizvaja več žetonov, ki jih nato preveri večji model, da se zagotovi natančnost. Kljub temu, da špekulativno dekodiranje na splošno izboljša pretok, lahko zaradi postopka preverjanja uvede spremenljivost zamud.

Kako deluje špekulativno dekodiranje

1. Vzporedna generacija žetona: Manjši osnutek modela vzporedno ustvari več kandidatnih žetonov. To je hitrejše od zaporedne generacije z večjim modelom, ker učinkoviteje uporablja pospeševanje GPU [1] [3].

2. Postopek preverjanja: Večji model preveri te kandidatne žetone. Če ustrezajo pričakovani proizvodnji, so sprejeti; V nasprotnem primeru se preračunajo samo napačni žetoni [3] [9].

Vpliv na zamude

- Zmanjšana povprečna zamuda: špekulativno dekodiranje lahko zmanjša povprečno zamudo z hitrejšim ustvarjanjem žetonov. To je zato, ker osnutek modela zahteva manj virov in lahko deluje hitreje kot večji model [3] [5].

- Spremenljiva zamuda: Medtem ko špekulativno dekodiranje izboljša celotno pretok, lahko to privede do neskladne zamude. Kadar so napovedi osnutka modela napačne, se mora večji model preračunati, kar lahko povzroči trne v zakasnitvi [3] [9].

Deepseek-R1 posebnosti

Deepseek-R1 vključuje izboljšave, kot so večkrat napoved (MTP) in optimizirano špekulativno dekodiranje, ki še izboljšajo hitrost sklepanja. MTP omogoča, da Deepseek-R1 vzporedno napoveduje več žetonov, kar zmanjšuje dekodiranje zamude, ne da bi pri tem ogrozilo skladnost [4]. Optimizirano špekulativno dekodiranje v Deepseek-R1 uporablja preverjanje verjetnosti, ki sprejema napovedi na podlagi pragov zaupanja in ne na natančnih ujemanju, kar zmanjšuje stopnjo zavrnitve in pospešuje sklepanje [4].

Na splošno lahko špekulativno dekodiranje znatno poveča delovanje Deepseek-R1 z zmanjšanjem povprečne zamude in izboljšanjem pretoka, vendar lahko povzroči spremenljivost zamud zaradi postopka preverjanja.

Navedbe:
[1] https://centml.ai/resources/2x-inference-peed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitive-and-exhausto
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807V1
[6] https://www.reddit.com/r/localllama/comments/1i64ffn/draft_model_speculative_decoding_performance_with/
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamerrick_i-work-on-this-spekulativno-decode -version-aktivnost-7293321395000819712-8yvc
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-ssebce-distilacija-turbo-spekulacija
[10] https://aws.amazon.com/blogs/machine-learning/Deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-cainer/