Hlavné rozdiely medzi mechanizmami smerovania expertov v Deepseek-V2 a Deepseek-V3 možno zhrnúť takto:
DeepSeek-V2 Routing
-Mechanizmus smerovania obmedzený na zariadenie: DeepSeek-V2 používa smerovací mechanizmus obmedzený na zariadenie na distribúciu odborníkov na viacerých zariadeniach. Tento prístup zaisťuje, že cieľoví odborníci pre každý token sa rozširujú cez obmedzený počet zariadení a zvyčajne vyberajú odborníkov zhora s Top-K z týchto zariadení. Táto stratégia pomáha riadiť komunikáciu nad hlavou a zaisťuje efektívne paralelné spracovanie [1] [5].
-Pomocné straty pre vyváženie záťaže: Deepseek-V2 predstavuje tri typy pomocných strát na úrovni odborníkov na úrovni zariadení a na úrovni komunikácie, aby sa udržala rovnováha záťaže počas tréningu. Tieto straty pomáhajú predchádzať smerovaniu kolapsu tým, že zabezpečí, aby sa žiadny jediný odborník príliš nevyužil, zatiaľ čo ostatní zostávajú nedostatočne využívané [1] [6].
- Počet odborníkov a aktivácia: Deepseek-V2 má 160 odborníkov plus dvoch zdieľaných odborníkov, pričom počas inferencie sa aktivovalo iba šesť odborníkov. Táto selektívna aktivácia významne znižuje počet aktívnych parametrov, čím je model efektívnejší [5].
DeepSeek-V3 Routing
- Zvýšená odborná špecializácia: Deepseek-V3 stavia na architektúre MOE zvýšením počtu smerovaných odborníkov na vrstvu o 60%, od 160 do 256. Toto zvýšenie zvyšuje kapacitu modelu pre vedomosti a pamäť [2].
- Zdieľaní odborníci: Deepseek-V3 si zachováva koncepciu zdieľaných odborníkov, ktorí sú vždy aktivovaní. Každá vrstva siete vpred (FFN) má jedného zdieľaného odborníka a existujú tri vrstvy, v ktorých sú aktivovaní všetci odborníci, čím sa zlepšuje schopnosť modelu zachytiť spoločné znalosti v kontextoch [2] [4].
-Token-to-expert afinita: Priradenie tokenov odborníkom je založené na afinite do token-experta v priestore vkladania. Deepseek-V3 však čelí výzvam súvisiacim s kolapsom smerovania, kde môžu byť žetóny dôsledne smerované k rovnakým odborníkom, čo potenciálne bráni výcviku ostatných odborníkov [2].
- Agresívna stratégia MOE: Deepseek-V3 prijíma agresívnejšiu stratégiu MOE, využívajúc presnosť FP8 na školenie, ktorá umožňuje efektívnejšie výpočet a škálovanie. Tento prístup umožňuje modelu efektívne využívať riedku aktiváciu a optimalizovať použitie parametrov počas inferencie [2] [4].
Stručne povedané, zatiaľ čo oba modely využívajú architektúry MOE na efektívne smerovanie a riedku aktiváciu, DeepSEEK-V3 tento prístup zvyšuje so zvýšenou odbornou špecializáciou, agresívnejšími stratégiami MOE a úpravami zdieľaných konfigurácií odborníkov. Deepseek-V2 sa zameriava na ekonomický tréning a efektívny záver prostredníctvom smerovania a pomocných strát na vyváženie záťaže.
Citácie:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a------puge-llm-with-eficient
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434V3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda