Deepseek-V3: Améliorer le routage des experts avec la fonction sigmoïde dans le mélange d'experts architecture

Comment la fonction sigmoïde a-t-elle un impact sur le calcul du score d'affinité dans Deepseek-V3

Dans Deepseek-V3, la fonction sigmoïde joue un rôle crucial dans le calcul des scores d'affinité pour le routage expert dans l'architecture du mélange d'experts (MOE). Contrairement aux modèles MOE traditionnels qui utilisent souvent la fonction Softmax pour normaliser les scores d'affinité, Deepseek-V3 utilise la fonction sigmoïde. Ce changement a un impact sur le modèle de plusieurs manières:

1. Normalisation et routage: la fonction sigmoïde est utilisée pour calculer les scores d'affinité, qui sont ensuite normalisés parmi tous les scores d'affinité sélectionnés pour produire les valeurs de déclenchement. Cette approche permet un mécanisme de routage plus flexible et nuancé par rapport à Softmax, ce qui peut parfois conduire à l'effondrement du routage où certains experts sont trop favorisés [4] [7].

2. Éviter l'effondrement du routage: l'effondrement du routage se produit lorsque la plupart des jetons sont acheminés vers un petit sous-ensemble d'experts, conduisant à une utilisation inefficace des ressources de calcul. Deepseek-V3 atténue cela en utilisant la déclenchement sigmoïde et l'introduction de termes de biais qui s'adaptent dynamiquement pendant la formation. Ces termes de biais aident à équilibrer la charge entre les experts sans s'appuyer sur les pertes auxiliaires qui peuvent avoir un impact négatif sur les performances du modèle [4] [9].

3. Termes de biais et ajustement dynamique: le modèle intègre des termes de biais pour chaque expert, qui sont ajoutés aux scores d'affinité avant de sélectionner les experts Top-K. Ces termes de biais sont ajustés dynamiquement en fonction de la charge de chaque expert. Si un expert est surchargé, son terme de biais diminue et s'il est sous-téléchargé, le terme de biais augmente. Cela garantit une distribution équilibrée de jetons entre les experts sans avoir besoin de pertes supplémentaires [4] [8].

4. Perte auxiliaire complémentaire par séquence: Bien que Deepseek-V3 évite principalement les pertes auxiliaires, il comprend une petite perte d'équilibre par séquence pour empêcher les cas extrêmes où une seule séquence favorise fortement un petit sous-ensemble d'experts. Cette perte agit comme une sauvegarde sans avoir un impact significatif sur la dynamique de formation globale [4].

5. Route limitée au nœud: Pour contrôler les coûts de communication, Deepseek-V3 utilise un routage limité au nœud, où chaque jeton est envoyé au plus dans les nœuds M en fonction des scores d'affinité les plus élevés. Cette stratégie permet un chevauchement de communication de calcul presque plein de plein air pendant l'entraînement, améliorant l'efficacité [4].

Dans l'ensemble, l'utilisation de la fonction sigmoïde dans Deepseek-V3 permet un mécanisme de routage plus flexible et efficace, contribuant à la capacité du modèle à équilibrer l'utilisation des experts sans sacrifier les performances.

Citations:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deplearning-neinalnetworks-activité-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-Takeaways-from-Deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-dection-with-output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explaten-3-auxiliary-loss-free-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details