Glavne razlike med strokovnimi mehanizmi usmerjanja v Deepseek-V2 in Deepseek-V3 je mogoče povzeti na naslednji način:
Deepseek-V2 strokovna usmerjanje
-Mehanizem usmerjanja naprave: Deepseek-V2 uporablja mehanizem usmerjanja, ki omejuje napravo, za distribucijo strokovnjakov v več napravah. Ta pristop zagotavlja, da se ciljni strokovnjaki za vsak žeton razširijo po omejenem številu naprav, ki običajno izbirajo strokovnjake za vrhunske K iz teh naprav. Ta strategija pomaga upravljati s komunikacijo in zagotavlja učinkovito vzporedno obdelavo [1] [5].
-Pomožne izgube za ravnovesje obremenitve: Deepseek-V2 uvaja tri vrste pomožnih izgub, na ravni strokovnjaka, ravni naprav in ravni komunikacije za ohranjanje ravnovesja obremenitve med treningom. Te izgube pomagajo preprečiti propadanje usmerjanja, saj zagotavljajo, da noben posamezen strokovnjak ni preveč uporabljen, drugi pa ostanejo premalo izkoriščeni [1] [6].
- Število strokovnjakov in aktivacije: Deepseek-V2 ima 160 strokovnjakov in dva skupna strokovnjaka, med sklepanjem pa je aktivirano le šest strokovnjakov. Ta selektivna aktivacija znatno zmanjša število aktivnih parametrov, zaradi česar je model učinkovitejši [5].
Deepseek-V3 strokovna usmerjanje
- Povečana strokovna specializacija: Deepseek-V3 temelji na arhitekturi MO s povečanjem števila usmerjenih strokovnjakov na plast za 60%, s 160 na 256. To povečanje poveča sposobnost modela za znanje in spomin [2].
- Skupni strokovnjaki: Deepseek-V3 ohranja koncept skupnih strokovnjakov, ki so vedno aktivirani. Vsak sloj omrežja za povratno omrežje (FFN) ima en skupni strokovnjak in obstajajo trije sloji, kjer se aktivirajo vsi strokovnjaki, kar izboljšuje sposobnost modela, da zajame splošno znanje v kontekstih [2] [4].
-Afiniteta žetona do eksperita: Dodelitev žetonov strokovnjakom temelji na afiniteti žetona do eksperita v vgrajenem prostoru. Vendar pa se Deepseek-V3 sooča z izzivi, povezanimi s propadom usmerjanja, kamor se lahko žetone dosledno preusmerijo na iste strokovnjake, kar lahko ovira usposabljanje drugih strokovnjakov [2].
- Agresivna strategija MOE: Deepseek-V3 sprejme bolj agresivno strategijo MOE, pri čemer uporablja natančnost FP8 za usposabljanje, kar omogoča učinkovitejši računanje in skaliranje. Ta pristop omogoča modelu, da učinkovito izkoristi redko aktivacijo in optimizira uporabo parametrov med sklepanjem [2] [4].
Če povzamemo, medtem ko oba modela uporabljata arhitekture MO za učinkovito usmerjanje in redko aktivacijo, Deepseek-V3 ta pristop izboljšuje s povečano strokovna specializacija, bolj agresivne strategije MOE in prilagoditvami skupnih strokovnih konfiguracij. Deepseek-V2 se osredotoča na ekonomično usposabljanje in učinkovito sklepanje s pomočjo usmerjanja, ki ga omejuje naprave, in pomožnimi izgubami, ki uravnotežijo obremenitev.
Navedbe:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-age-llm-with-efficient
[6] https://stratechhery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434V3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda