Cieľ predikcie viacerých tokov (MTP) v DeepSEEK-V3 významne zvyšuje účinnosť údajov zásadnou zmenou tradičnej paradigmy predpovede s ďalšími vedľajšími tokanmi. Namiesto toho, aby predpovedal iba bezprostredný ďalší token, MTP trénuje model, aby predpovedal súčasne viacero budúcich tokenov. Tento prístup hustožuje tréningové signály, čo znamená, že pre každú vstupnú sekvenciu model vytvára viacnásobné predpovede, čo vedie k lepšiemu využitiu výcvikových údajov.
Vylepšená účinnosť údajov
1. Zhustené školiace signály: MTP predpovedaním viacerých tokenov naraz zvyšuje hustotu tréningových signálov. Tradičné modely, ako je GPT, zvyčajne predpovedajú jeden token na vstupnú polohu, ktorý môže ponechať väčšinu prediktívneho potenciálu sekvencie nevyužitý. Naopak, MTP zaisťuje, že pre každú vstupnú sekvenciu sa uskutoční viac predpovedí, čím sa zlepší účinnosť údajov a urýchľuje výsledky vzdelávania [1] [4].
2. Vylepšené plánovanie reprezentácie: Cieľ MTP povzbudzuje model, aby rozvíjal bohatšie interné reprezentácie zvážením dlhodobejších závislostí v údajoch. Vyžadovaním predpovedí pre niekoľko budúcich tokenov súčasne MTP núti model kódovať viac kontextových informácií na každej pozícii. Pri porozumení jazyka sa to viac spája s ľudskými kognitívnymi procesmi, čo vedie k hlbšiemu pochopeniu kontextu a významu v sekvenciách [1] [4].
3. Širšie zovšeobecňovacie schopnosti: Schopnosť predpovedať viacero tokenov zvyšuje schopnosť modelu zovšeobecniť sa v rôznych úlohách, ktoré si vyžadujú zdôvodnenie v predĺžených kontextoch alebo generujú koherentné sekvencie. Toto je obzvlášť prospešné v zložitých referenčných hodnotách, ako sú Humaneval a GSM8K, kde sú nevyhnutné dlhodobé plánovanie a viacstupňové zdôvodnenie [1] [4].
špekulatívny dekódovací potenciál
Počas inferencie môže cieľ MTP uľahčiť špekulatívne dekódovanie, kde sa predpovede pre viacero tokenov generujú skôr paralelne ako postupne. Táto schopnosť môže výrazne skrátiť latenciu a urýchliť časy odozvy počas nasadenia modelu, čím sa účinnejšie zvýši aplikácie v reálnom čase [1] [6].
Stručne povedané, cieľ MTP v Deepseek-V3 nielen zlepšuje účinnosť tréningu, ale tiež zvyšuje prediktívne schopnosti modelu a zovšeobecnenie medzi zložitými úlohami, čo označuje podstatný pokrok oproti tradičným metódam predpovede s next-token.
Citácie:
[1] https://codingmall.com/knowledge-base/25-global/240692-how-does-deepseeks--token-prediction-prediction-mtp-objective-enhance-performance
[2] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[3] https://blogs.novita.ai/what-are-the-requirements-for-deepseek-v3-inference/
[4] https://community.aws/content/2rjj1wkztsfywvfSiibHwxeqmf1/four-unique-takaways-from-deepseek-v3?lang=en
[5] https://blog.dataopslabs.com/deepseek-v3-woreview-traind-and-benchmark-performance
[6] https://github.com/deepseek-ai/deepseek-v3/blob/main/readme.md
[7] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[8] https://www.deeplearning.ai/the-batch/deepseek-v3-redefines-llm-performance-and-cost-efficiention/
[9] https://www.youtube.com/watch?v=jl49flOJyng