Sigmoid-activeringsfunctie in Deepseek-V3 Expert-routing

Welke rol speelt de sigmoïde activeringsfunctie in het expertrouteringsproces van Deepseek-V3

In Deepseek-V3 speelt de sigmoid-activeringsfunctie een cruciale rol in het routeringsproces van deskundigen door te wijzigen hoe tokens worden toegewezen aan experts. In tegenstelling tot eerdere versies die een softmax-functie gebruikten, maakt Deepseek-V3 gebruik van een sigmoïde functie om de affiniteitsscores tussen tokens en experts te berekenen. Deze verandering helpt bij het voorkomen van extreme selectiekansen van deskundigen, wat kan leiden tot het instorten van een situatie waarin het model enkele experts boven andere bevordert, waardoor de voordelen van specialisatie en efficiëntie worden verminderd.

sigmoid activeringsfunctie in deskundige routing

De sigmoid -functie, aangegeven als $$ \ sigma (\ cdot) $$, wordt gebruikt om de affiniteitsscore tussen een token en een expert te berekenen. In het bijzonder wordt de score $$ s_ {i, t} $$ voor token $$ t $$ en expert $$ i $$ berekend als:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Waar $$ U_T $$ de token -inbedding is en $$ E_I $$ is de centroid vector van expert $$ i $$. Deze score weerspiegelt hoe goed het token aansluit bij de specialiteit van de expert.

Normalisatie en selectie

Na het berekenen van deze scores, normaliseert Deepseek-V3 ze en selecteert de top-$$ k_r $$ experts op basis van deze genormaliseerde scores. Dit proces zorgt ervoor dat elk token wordt geleid naar een subset van experts die het meest relevant zijn, waardoor efficiënte en gespecialiseerde verwerking wordt bevorderd.

Bias voorwaarden voor load balancing

Om de instorting van de routing te voorkomen en te zorgen voor een evenwichtige belastingverdeling tussen experts, introduceert Deepseek-V3 dynamisch verstelbare biastermen. Deze bias -termen worden toegevoegd aan de affiniteitsscores voordat de topexperts worden geselecteerd. Als een expert wordt overbelast, wordt de vooringenomenheid verlaagd en als deze wordt ondergebracht, wordt de vooringenomenheid verhoogd. Dit mechanisme zorgt ervoor dat de belasting in evenwicht blijft zonder te vertrouwen op hulpverliesfuncties, die de modelprestaties van het model negatief kunnen beïnvloeden [1] [3].

Voordelen van sigmoid boven softmax

Het gebruik van een sigmoïde functie in plaats van softmax helpt de selectiekansen van verschillende experts te ontkoppelen. In softmax worden de kansen genormaliseerd om te samenvatten tot één, wat kan leiden tot extreme waarschijnlijkheden wanneer een expert aanzienlijk de voorkeur heeft. Sigmoid daarentegen zorgt voor meer flexibele en onafhankelijke waarschijnlijkheidstoewijzingen, waardoor de kans op instorting van de routing wordt verminderd en een evenwichtiger gebruik van deskundig deskundigen wordt bevorderd [4].

Over het algemeen verbetert de sigmoid-activeringsfunctie in Deepseek-V3 het vermogen van het model om tokens efficiënt te routeren naar relevante experts met behoud van een evenwichtige werklast, wat cruciaal is voor het bereiken van hoge prestaties en computationele efficiëntie in grootschalige mengsel-van-experts (MOE) architecturen.

Citaten:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function