Fonction d'activation sigmoïde dans le routage d'experts Deepseek-V3

Quel rôle joue la fonction d'activation sigmoïde dans le processus de routage expert de Deepseek-V3

Dans Deepseek-V3, la fonction d'activation sigmoïde joue un rôle crucial dans le processus de routage d'experts en modifiant la façon dont les jetons sont affectés aux experts. Contrairement aux versions antérieures qui ont utilisé une fonction Softmax, Deepseek-V3 utilise une fonction sigmoïde pour calculer les scores d'affinité entre les jetons et les experts. Ce changement aide à prévenir les probabilités de sélection d'experts extrêmes, ce qui peut conduire à l'effondrement de l'effondrement d'une situation où le modèle favorise quelques experts sur d'autres, diminuant les avantages de la spécialisation et de l'efficacité.

Fonction d'activation sigmoïde dans le routage expert

La fonction sigmoïde, désignée comme $$ \ Sigma (\ cdot) $$, est utilisée pour calculer le score d'affinité entre un jeton et un expert. Plus précisément, le score $$ S_ {i, t} $$ pour le jeton $$ t $$ et l'expert $$ i $$ est calculé comme:
$$ S_ {i, t} = \ Sigma (u_t ^ t e_i) $$
où $$ U_T $$ est l'intégration de jetons et $$ e_i $$ est le vecteur centroïde de l'expert $$ i $$. Ce score reflète la façon dont le jeton s'aligne sur la spécialité de l'expert.

Normalisation et sélection

Après avoir calculé ces scores, Deepseek-V3 les normalise et sélectionne les experts supérieurs - $$ k_r $$ en fonction de ces scores normalisés. Ce processus garantit que chaque jeton est acheminé vers un sous-ensemble d'experts les plus pertinents, favorisant un traitement efficace et spécialisé.

Termes de biais pour l'équilibrage de la charge

Pour éviter l'effondrement du routage et assurer une distribution de charge équilibrée entre les experts, Deepseek-V3 introduit des termes de biais réglables dynamiquement. Ces termes de biais sont ajoutés aux scores d'affinité avant de sélectionner les meilleurs experts. Si un expert est surchargé, son terme de biais est diminué et s'il est sous -chargé, le terme de biais est augmenté. Ce mécanisme garantit que la charge reste équilibrée sans s'appuyer sur les fonctions de perte auxiliaires, ce qui peut avoir un impact négatif sur les performances du modèle [1] [3].

Avantages du sigmoïde sur softmax

L'utilisation d'une fonction sigmoïde au lieu de softmax aide à découpler les probabilités de sélection de différents experts. Dans Softmax, les probabilités sont normalisées pour résumer à un, ce qui peut entraîner des probabilités extrêmes lorsqu'un expert est considérablement favorisé. Sigmoïde, en revanche, permet des affectations de probabilité plus flexibles et indépendantes, réduisant la probabilité d'effondrement de routage et favorise une utilisation plus équilibrée des experts [4].

Dans l'ensemble, la fonction d'activation sigmoïde dans Deepseek-V3 améliore la capacité du modèle à acheminer efficacement les jetons vers des experts concernés tout en conservant une charge de travail équilibrée, qui est cruciale pour obtenir des architectures de haute performance et de calcul dans les architectures de mélange à grande échelle (MOE).

Citations:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/udgerstanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoïd-activation-finction