Score d'affinité dans Deepseek-V3: Sélection d'experts dans l'architecture du mélange des experts

Pouvez-vous expliquer le rôle du score d'affinité dans le processus de sélection d'experts de Deepseek-V3

Dans Deepseek-V3, le score Affinity joue un rôle crucial dans le processus de sélection d'experts dans son architecture de mélange des experts (MOE). Cette architecture est conçue pour gérer efficacement les tâches de modélisation des langues à grande échelle en activant dynamiquement un sous-ensemble d'experts en fonction des jetons d'entrée.

Calcul du score d'affinité

Le score d'affinité est calculé comme le produit DOT de l'intégration du jeton d'entrée et un centroïde de l'expert spécifique. Le centroïde peut être considéré comme un vecteur représentatif pour chaque expert, qui peut être dérivé des activations ou des intrants moyens que l'expert traite. Ce produit DOT mesure à quel point le jeton est étroitement aligné avec l'expertise de chaque expert disponible.

Processus de sélection d'experts

1. Route Top-K: Pour chaque jeton d'entrée, Deepseek-V3 sélectionne les 8 meilleurs experts avec les scores d'affinité les plus élevés. Ce processus est connu sous le nom de routage Top-K, où K est fixé à 8 dans ce cas [1] [7].

2. Chaque expert a un terme de biais $$ b_i $$ qui est ajouté à son score d'affinité pendant le routage. Si un expert est surchargé, son biais est diminué et s'il est sous-utilisé, son biais est augmenté. Cet ajustement aide à maintenir une charge de travail équilibrée à tous les experts sans utiliser de pertes auxiliaires explicites [1] [3].

3. Mécanisme de déclenchement: le mécanisme de déclenchement calcule un score pour chaque jeton et sélectionne les experts routés les plus pertinents en fonction de ces scores. Cela garantit que le modèle alloue efficacement les ressources informatiques en activant uniquement les experts nécessaires pour chaque jeton [3].

Avantages du score d'affinité

- Efficacité: En sélectionnant des experts en fonction des scores d'affinité, Deepseek-V3 réduit les coûts de calcul en activant uniquement une fraction des paramètres totaux du modèle pour chaque jeton. Il en résulte des processus d'inférence et de formation plus efficaces [4] [8].

- Spécialisation: le score d'affinité permet une meilleure spécialisation parmi les experts. Chaque expert peut se concentrer sur des modèles ou des tâches spécifiques, améliorant la puissance de représentation globale du modèle et la capacité à gérer divers entrées [1] [2].

- Stabilité: L'ajustement du biais dynamique garantit qu'aucun expert n'est surchargé, en maintenant la stabilité pendant la formation et l'inférence. Cela empêche le modèle de laisser tomber les jetons en raison de la surcharge, ce qui était un problème dans les versions antérieures [2] [3].

En résumé, le score d'affinité dans Deepseek-V3 est crucial pour sélectionner dynamiquement les experts les plus pertinents pour chaque jeton d'entrée, assurant un traitement efficace et spécialisé tout en maintenant la stabilité du modèle.

Citations:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-andeepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamiquement-selecting-number-expert-moe-models-like-eepseek-rosi%C4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-eepseek-models-from-v3-t--r1-and-beyond