Sigmoid-aktiveringsfunktion i Deepseek-V3-ekspertruting

Hvilken rolle spiller Sigmoid-aktiveringsfunktionen i ekspertroutingsprocessen for DeepSeek-V3

I DeepSeek-V3 spiller sigmoidaktiveringsfunktionen en afgørende rolle i ekspertrutingsprocessen ved at ændre, hvordan tokens tildeles eksperter. I modsætning til tidligere versioner, der brugte en SoftMax-funktion, anvender DeepSeek-V3 en sigmoidfunktion til at beregne affinitetsresultaterne mellem tokens og eksperter. Denne ændring hjælper med at forhindre ekstreme ekspertudvælgelsessandsynligheder, hvilket kan føre til routing sammenbrudt en situation, hvor modellen favoriserer et par eksperter over andre, hvilket mindsker fordelene ved specialisering og effektivitet.

Sigmoid -aktiveringsfunktion i ekspertrutning

Sigmoid -funktionen, betegnet som $$ \ Sigma (\ CDOT) $$, bruges til at beregne affinitetsresultatet mellem et token og en ekspert. Specifikt beregnes scoringen $$ s_ {i, t} $$ for token $$ t $$ og ekspert $$ i $$ som:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Hvor $$ U_T $$ er token -indlejringen og $$ E_I $$ er centroid -vektoren for ekspert $$ i $$. Denne score afspejler, hvor godt token er i overensstemmelse med ekspertens specialitet.

Normalisering og valg

Efter beregning af disse scoringer normaliserer DeepSeek-V3 dem og vælger de øverste-$$ K_R $$ -eksperter baseret på disse normaliserede scoringer. Denne proces sikrer, at hvert token dirigeres til en undergruppe af eksperter, der er mest relevante for den, der fremmer effektiv og specialiseret behandling.

Bias -udtryk for belastningsbalancering

For at forhindre routing sammenbrud og sikre afbalanceret belastningsfordeling blandt eksperter introducerer DeepSeek-V3 dynamisk justerbare bias-udtryk. Disse bias -udtryk føjes til affinitetsresultaterne, inden de øverste eksperter vælger. Hvis en ekspert er overbelastet, reduceres dens biasbegivenhed, og hvis den er underbelastet, øges biasbegrebet. Denne mekanisme sikrer, at belastningen forbliver afbalanceret uden at stole på hjælpetabsfunktioner, hvilket kan have negativ indflydelse på modelydelsen negativt [1] [3].

Fordele ved sigmoid i forhold til Softmax

Brug af en sigmoidfunktion i stedet for SoftMax hjælper med at afkoble udvælgelsessandsynlighederne for forskellige eksperter. I Softmax normaliseres sandsynlighederne for at opsummere til en, hvilket kan føre til ekstreme sandsynligheder, når en ekspert er betydeligt foretrukket. Sigmoid giver på den anden side mulighed for mere fleksible og uafhængige sandsynlighedsopgaver, hvilket reducerer sandsynligheden for at dirigere sammenbrud og fremme mere afbalanceret ekspertudnyttelse [4].

Generelt forbedrer sigmoidaktiveringsfunktionen i DeepSeek-V3 modellens evne til effektivt at rute tokens til relevante eksperter, samtidig med at en afbalanceret arbejdsbyrde opretholdes, hvilket er afgørende for at opnå høj ydeevne og beregningseffektivitet i store blanding af eksperter (MOE) arkitekturer.

Citater:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function