Cilj napovedovanja z več tok (MTP) v Deepseek-V3 znatno poveča učinkovitost podatkov s temeljnim spreminjanjem tradicionalne paradigme napovedovanja naslednjega. Namesto da napoveduje le neposredni žeton, MTP usposablja model za napovedovanje več prihodnjih žetonov hkrati. Ta pristop desificira signale treninga, kar pomeni, da za vsako vhodno zaporedje model naredi več napovedi, kar vodi k boljši uporabi podatkov o usposabljanju.
Izboljšana učinkovitost podatkov
1. Densified Training Signals: Z napovedovanjem več žetonov naenkrat MTP poveča gostoto signalov treninga. Tradicionalni modeli, kot je GPT, običajno napovedujejo en žeton na vhodni položaj, ki lahko večino napovednega potenciala zaporedja pusti neizkoriščen. V nasprotju s tem MTP zagotavlja, da je za vsako vhodno zaporedje narejenih več napovedi, s čimer izboljša učinkovitost podatkov in pospešuje učne rezultate [1] [4].
2. Izboljšano načrtovanje reprezentacije: Cilj MTP spodbuja model, da razvije bogatejše notranje predstavitve z upoštevanjem dolgoročnih odvisnosti v podatkih. Z zahtevanjem napovedi za več prihodnjih žetonov hkrati MTP prisili model, da kodira več kontekstnih informacij na vsakem položaju. To se bolj uskladi s človeškimi kognitivnimi procesi, ko razumete jezik, kar ima za posledico globlje razumevanje konteksta in pomena znotraj zaporedja [1] [4].
3. Širjenje uspešnosti posploševanja: Sposobnost napovedovanja več žetonov povečuje sposobnost modela, da posplošijo pri različnih nalogah, ki zahtevajo sklepanje nad razširjenimi konteksti ali ustvarjajo skladne sekvence. To je še posebej koristno pri zapletenih merilih, kot sta Humanoval in GSM8K, kjer sta dolgoročno načrtovanje in večstopenjsko sklepanje bistvenega pomena [1] [4].
Špekulativni potencial dekodiranja
Med sklepom lahko cilj MTP olajša špekulativno dekodiranje, kjer se napovedi za več žetonov nastajajo vzporedno in ne zaporedno. Ta sposobnost lahko znatno zmanjša zamude in pospeši odzivne čase med uvajanjem modela, zaradi česar je učinkovitejša za aplikacije v realnem času [1] [6].
Če povzamemo, cilj MTP v Deepseek-V3 ne samo izboljšuje učinkovitost usposabljanja, ampak tudi poveča napovedne zmogljivosti modela in posploševanje med zapletenimi nalogami, kar označuje znaten napredek pred tradicionalnimi metodami napovedovanja naslednjih tokov.
Navedbe:
[1] https://codingmall.com/knowledge-base/25-global/240692-how-does-deepseeks-moulti-token-Preddiction-mtp-objektive-enhance-performance
[2] https://dirox.com/post/deepseek-v3-the-the-open-source-ai-revolution
[3] https://blogs.novita.ai/what-are-the-requirements-for-reepseek-v3-inference/
[4] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[5] https://blog.dataopslabs.com/deepseek-v3-overview-training-and--------Berch-performance
[6] https://github.com/deepseek-ai/deepseek-v3/blob/main/readme.md
[7] https://mlfrontiers.substack.com/p/undermarating-deepseek-v3
[8] https://www.deeplearning.ai/the-batch/deepseek-v3-redefines-llm-performance-and-cost-efficience/
[9] https://www.youtube.com/watch?v=jl49flojyng