Sigmoid aktiveringsfunksjon i DeepSeek-V3 Expert Routing

Hvilken rolle spiller Sigmoid-aktiveringsfunksjonen i ekspertrutingsprosessen til DeepSeek-V3

I DeepSeek-V3 spiller Sigmoid-aktiveringsfunksjonen en avgjørende rolle i ekspertrutingsprosessen ved å endre hvordan symboler blir tildelt eksperter. I motsetning til tidligere versjoner som brukte en SoftMax-funksjon, benytter DeepSeek-V3 en sigmoidfunksjon for å beregne affinitetspoengene mellom symboler og eksperter. Denne endringen bidrar til å forhindre ekstreme ekspertvalgssannsynligheter, noe som kan føre til at ruting kollapser en situasjon der modellen favoriserer noen få eksperter fremfor andre, og reduserer fordelene med spesialisering og effektivitet.

sigmoid aktiveringsfunksjon i ekspertruting

Sigmoid -funksjonen, betegnet som $$ \ Sigma (\ CDOT) $$, brukes til å beregne affinitetsscore mellom et symbol og en ekspert. Spesielt er poengsummen $$ s_ {i, t} $$ for token $$ t $$ og ekspert $$ i $$ beregnet som:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Hvor $$ u_t $$ er token innebygging og $$ e_i $$ er centroid -vektoren til ekspert $$ i $$. Denne poengsummen gjenspeiler hvor godt tokenet stemmer overens med ekspertens spesialitet.

Normalisering og valg

Etter å ha beregnet disse score, normaliserer DeepSeek-V3 dem og velger topp-$$ K_R $$ eksperter basert på disse normaliserte score. Denne prosessen sikrer at hvert token blir dirigert til en undergruppe av eksperter som er mest relevante for det, og fremmer effektiv og spesialisert prosessering.

skjevheter for belastningsbalansering

For å forhindre ruting kollaps og sikre balansert belastningsfordeling blant eksperter, introduserer DeepSeek-V3 dynamisk justerbare skjevhetsbetingelser. Disse skjevhetene blir lagt til affinitetspoengene før de velger toppeksperter. Hvis en ekspert er overbelastet, reduseres dens skjevhet, og hvis den er underbelastet, økes skjevtiden. Denne mekanismen sikrer at belastningen forblir balansert uten å stole på funksjonstapsfunksjoner, noe som kan påvirke modellytelsen på negativ måte [1] [3].

fordeler med sigmoid over softmax

Å bruke en sigmoid -funksjon i stedet for softmax hjelper til å avkoble utvalgssannsynlighetene til forskjellige eksperter. I SoftMax normaliseres sannsynlighetene for å oppsummere til en, noe som kan føre til ekstreme sannsynligheter når en ekspert er betydelig foretrukket. Sigmoid, derimot, gir mulighet for mer fleksible og uavhengige sannsynlighetsoppgaver, noe som reduserer sannsynligheten for ruting kollaps og fremmer mer balansert ekspertutnyttelse [4].

Totalt sett forbedrer Sigmoid-aktiveringsfunksjonen i DeepSeek-V3 modellens evne til effektivt å rute symboler til relevante eksperter samtidig som en balansert arbeidsmengde, noe som er avgjørende for å oppnå høy ytelse og beregningseffektivitet i storskala blanding-av-ekspert (MOE) arkitekturer.

Sitasjoner:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-depseek-v3
[5] https://docs.nvidia.com/nemo-ramwork/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-acivation-function