Sigmoidno gatiranje v Deepseek-V3 ima ključno vlogo pri preprečevanju propada usmerjanja, kar je običajno vprašanje pri modelih mešanice eksperit (MOE), kjer je nekaj strokovnjakov dosledno naklonjeno drugim, kar vodi do neučinkovitega usposabljanja in uporabe modelnih virov. Evo, kako pomaga Sigmoid Gating:
Tradicionalni softmax Gating proti Sigmoid Gating
Tradicionalni modeli MO pogosto uporabljajo Softmax Gating, kar lahko privede do scenarija "zmagovalca-vse". Izhodi SoftMax so normalizirani, da se zagotovi, da seštejejo do 1, kar lahko povzroči izjemne verjetnosti, kjer je izbran en strokovnjak skoraj izključno, še posebej, če so njegove začetne uteži nekoliko boljše. To lahko povzroči, da se drugi strokovnjaki premalo izkoristijo in premalo preučijo, kar vodi do propada usmerjanja.
V nasprotju s tem Sigmoid Gating vsakemu strokovnjaku dodeli oceno med 0 in 1 neodvisno, brez normalizacije med strokovnjaki. To pomeni, da ima lahko več strokovnjakov hkrati visoke ocene, kar omogoča bolj uravnoteženo porazdelitev žetonov med strokovnjaki. Sigmoid Gating ne uveljavlja stroge konkurence med strokovnjaki, kar zmanjšuje verjetnost propada usmerjanja, tako da zagotovi, da vsak strokovnjak dobi pošteno priložnost, da prispeva [1] [4] [6].
Dinamična prilagoditev pristranskosti
Deepseek-V3 še izboljša sigmoidno gančenje z uvedbo dinamičnih pristranskosti za vsakega strokovnjaka. Te pristranskosti se med treningom prilagodijo na podlagi obremenitve vsakega strokovnjaka. Če je strokovnjak preobremenjen, se njegova pristranskost zmanjšuje, da bi še naprej odvrnila nadaljnje usmerjanje, medtem ko se premalo naloženi strokovnjaki povečajo, da bi pritegnili več žetonov. Ta dinamična prilagoditev pomaga ohranjati uravnoteženo obremenitev pri vseh strokovnjakih, kar preprečuje, da bi kateri koli posamezen strokovnjak prevladoval v odločitvah o usmerjanju in s tem preprečil propad usmerjanja [2] [4] [6].
Hierarhično gatiranje
Deepseek-V3 uporablja tudi hierarhično ganting, ki uporablja omejitve redkosti na več ravneh. Sprva je narejena groba izbira strokovnjakov, ki ji sledi lepše filtriranje znotraj izbranih skupin. Ta hierarhični pristop zagotavlja, da se za vsak žeton aktivira raznolik nabor strokovnjakov, kar še dodatno zmanjšuje tveganje za propad usmerjanja s preprečevanjem prekomerne specializacije in spodbujanjem pospeševanja na različnih področjih [1] [6].
Usmerjenost z omejevanjem vozlišča
Poleg tega Deepseek-V3 uporablja usmerjanje z omejenim vozliščem, kar omejuje število vozlišč, s katerimi lahko komunicira vsak žeton. Ta strategija zmanjšuje komunikacijsko komunikacijo nad vozlišči, tako da zagotavlja učinkovito usposabljanje in sklepanje, hkrati pa ohranja uravnoteženo uporabo strokovnosti [6].
Če povzamemo, Sigmoid Gating v Deepseek-V3 pomaga preprečiti propad usmerjanja, saj omogoča aktiviranje več strokovnjakov hkrati, ne da bi med njimi prisilili strogo konkurenco. Dinamična prilagajanje pristranskosti in hierarhično zatiranje še naprej zagotavljata učinkovito uporabo vsakega strokovnjaka, ohrani uravnoteženo obremenitev in preprečuje, da bi kateri koli strokovnjak prevladoval v odločitvah o usmerjanju.
Navedbe:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-reepseek-v3-picks-perfect-experts-aktivnost-7287631625310412800-NCYV
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improves-the-Transformer
[4] https://machinelearnAtscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms