SIGMOID-aktiveringsfunktion i Deepseek-V3 Expertruttning

Vilken roll spelar Sigmoid-aktiveringsfunktionen i expertrutningsprocessen för Deepseek-V3

I Deepseek-V3 spelar sigmoidaktiveringsfunktionen en avgörande roll i expertruttningsprocessen genom att modifiera hur tokens tilldelas experter. Till skillnad från tidigare versioner som använde en softmax-funktion använder Deepseek-V3 en sigmoidfunktion för att beräkna affinitetsresultaten mellan symboler och experter. Denna förändring hjälper till att förhindra extremt sannolikheter för expertval, vilket kan leda till routing kollaps en situation där modellen gynnar några experter över andra, vilket minskar fördelarna med specialisering och effektivitet.

Sigmoidaktiveringsfunktion i expertruttning

Sigmoid -funktionen, betecknad som $$ \ sigma (\ cdot) $$, används för att beräkna affinitetspoäng mellan en token och en expert. Specifikt beräknas poängen $$ s_ {i, t} $$ för token $$ t $$ och expert $$ i $$ som:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Där $$ U_T $$ är token inbäddning och $$ E_I $$ är centroidvektorn för expert $$ i $$. Denna poäng återspeglar hur väl token anpassar sig till expertens specialitet.

Normalisering och urval

Efter att ha beräknat dessa poäng normaliserar Deepseek-V3 dem och väljer toppen-$$ K_R $$ Experter baserat på dessa normaliserade poäng. Denna process säkerställer att varje token dirigeras till en delmängd av experter som är mest relevanta för den och främjar effektiv och specialiserad bearbetning.

Bias villkor för lastbalansering

För att förhindra att routing kollapsar och säkerställer balanserad belastningsfördelning mellan experter introducerar Deepseek-V3 dynamiskt justerbara förspänningstermer. Dessa förspänningstermer läggs till i affinitetsresultaten innan du väljer de bästa experterna. Om en expert är överbelastad minskas dess förspänningstid, och om den är underbelastad ökas förspänningstermen. Denna mekanism säkerställer att belastningen förblir balanserad utan att förlita sig på hjälpförlustfunktioner, vilket kan påverka modellprestanda negativt [1] [3].

Fördelar med sigmoid över softmax

Att använda en sigmoidfunktion istället för softmax hjälper till att avkoppla urvalssannolikheterna för olika experter. I SoftMax normaliseras sannolikheterna till en, vilket kan leda till extrema sannolikheter när en expert gynnas avsevärt. Sigmoid, å andra sidan, möjliggör mer flexibla och oberoende sannolikhetsuppdrag, vilket minskar sannolikheten för att dirigera kollaps och främja mer balanserat expertutnyttjande [4].

Sammantaget förbättrar sigmoidaktiveringsfunktionen i DeepSeek-V3 modellens förmåga att effektivt leda tokens till relevanta experter samtidigt som en balanserad arbetsbelastning upprätthålls, vilket är avgörande för att uppnå högpresterande och beräkningseffektivitet i storskaliga blandnings-av-experter (MOE) arkitekturer.

Citeringar:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function