Gating sigmoïde dans Deepseek-V3: Empêcher l'effondrement du routage dans les modèles de mélange de temps

Comment le déclenchement sigmoïde aide-t-il à prévenir l'effondrement de routage dans Deepseek-V3

Le déclenchement sigmoïde dans Deepseek-V3 joue un rôle crucial dans la prévention de l'effondrement du routage, un problème courant dans les modèles de mélange d'Experts (MOE) où quelques experts sont systématiquement favorisés par rapport aux autres, conduisant à une formation et à une utilisation inefficaces des ressources modèles. Voici comment la déclenchement sigmoïde aide:

Gating Softmax traditionnel vs déclenchement sigmoïde

Les modèles MOE traditionnels utilisent souvent la déclenchement softmax, ce qui peut conduire à un scénario "gagnant-tout". Les sorties SoftMax sont normalisées pour s'assurer qu'elles atteignent 1, ce qui peut entraîner des probabilités extrêmes où un expert est choisi presque exclusivement, surtout si ses poids initiaux sont légèrement meilleurs. Cela peut entraîner une sous-utilisation et un sous-entraînement des autres experts, conduisant à un effondrement du routage.

En revanche, le déclenchement sigmoïde attribue à chaque expert un score entre 0 et 1 indépendamment, sans normalisation entre les experts. Cela signifie que plusieurs experts peuvent avoir des scores élevés simultanément, permettant une distribution plus équilibrée de jetons entre les experts. Le déclenchement sigmoïde n'applique pas une concurrence stricte entre les experts, réduisant la probabilité de l'effondrement de routage en s'assurant que chaque expert a une chance équitable de contribuer [1] [4] [6].

Réglage du biais dynamique

Deepseek-V3 améliore en outre le déclenchement sigmoïde en introduisant des termes de biais dynamiques pour chaque expert. Ces biais sont ajustés pendant la formation en fonction de la charge de chaque expert. Si un expert est surchargé, son biais est diminué pour décourager davantage le routage vers lui, tandis que les experts sous-téléchargés ont augmenté leurs biais pour attirer plus de jetons. Cet ajustement dynamique aide à maintenir une charge équilibrée à tous les experts, empêchant tout expert unique de dominer les décisions de routage et d'empêcher ainsi l'effondrement du routage [2] [4] [6].

Gatin hiérarchique

Deepseek-V3 utilise également un déclenchement hiérarchique, qui applique des contraintes de rareté à plusieurs niveaux. Initialement, une sélection grossière d'experts est effectuée, suivie d'un filtrage plus fin au sein de groupes sélectionnés. Cette approche hiérarchique garantit qu'un ensemble diversifié d'experts est activé pour chaque jeton, ce qui réduit davantage le risque d'effondrement de routage en empêchant la sur-spécialisation et en encourageant la généralisation dans différents domaines [1] [6].

Route limitée au nœud

De plus, Deepseek-V3 utilise un routage limité aux nœuds, qui restreint le nombre de nœuds avec lesquels chaque jeton peut communiquer. Cette stratégie minimise les frais généraux de communication entre les nœuds, assurant une formation et une inférence efficaces tout en maintenant une utilisation équilibrée d'experts [6].

En résumé, le déclenchement sigmoïde dans Deepseek-V3 aide à prévenir l'effondrement du routage en permettant à plusieurs experts d'être activés simultanément sans forcer une concurrence stricte entre eux. L'ajustement dynamique du biais et le déclenchement hiérarchique garantissent en outre que chaque expert est utilisé efficacement, en maintenant une charge équilibrée et en empêchant tout expert de dominer les décisions de routage.

Citations:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activité-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-mproved-the-transformateur
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms