Processus de sélection d'experts Deepseek-V3 et architecture MOE

Comment le processus de sélection des experts dans Deepseek-V3 assure-t-il un mélange parfait de compétences

Le processus de sélection des experts de Deepseek-V3 est conçu pour assurer une répartition équilibrée et efficace des tâches entre ses experts, en tirant parti de l'architecture du mélange d'experts (MOE). Ce processus est crucial pour réaliser un mélange parfait de compétences en activant dynamiquement uniquement les experts les plus pertinents pour chaque jeton d'entrée.

Mélange d'experts (MOE) Architecture

Deepseek-V3 utilise une architecture MOE, qui consiste à diviser le modèle en plusieurs «experts», chacun spécialisé dans différentes tâches ou domaines de connaissances. Le modèle a 1 expert partagé et 256 experts routés, avec 8 experts routés sélectionnés comme actifs pour chaque jeton d'entrée en fonction de leur pertinence [1]. Cette approche permet au modèle de traiter les entrées plus efficacement en activant uniquement une fraction de ses paramètres totaux 37 milliards sur 671 milliards pour chaque tâche [6] [7].

Processus de sélection d'experts

La sélection d'experts dans Deepseek-V3 est basée sur un score d'affinité, qui est calculé comme le produit DOT de l'intégration de jeton d'entrée et un centroïde d'experts spécifiques. Ce score détermine dans quelle mesure un expert correspond aux besoins du jeton d'entrée [1]. Le modèle utilise une stratégie de sélection du Top-K, où les experts des meilleurs scores sont choisis pour le traitement. Pour éviter l'effondrement des routage, où trop de jetons sont envoyés à quelques experts, Deepseek-V3 utilise une stratégie d'équilibrage de charge sans perte auxiliaire.

Équilibrage de charge sans perte auxiliaire

Cette stratégie consiste à ajouter un biais au score d'affinité pendant le routage. Le biais est ajusté dynamiquement en fonction de l'utilisation de chaque expert dans un lot. Si un expert est surchargé, son biais est réduit pour décourager d'autres affectations, tandis que les experts sous-utilisés ont augmenté leur biais pour encourager davantage d'utilisation [1] [3]. Cette approche garantit que la charge de travail est répartie uniformément entre les experts sans avoir besoin de fonctions de perte supplémentaires, ce qui peut parfois nuire aux performances du modèle [4].

Avantages du processus de sélection des experts

Le processus de sélection des experts dans Deepseek-V3 offre plusieurs avantages:
- Efficacité: en activant uniquement les experts pertinents, le modèle réduit les frais généraux de calcul, ce qui le rend plus rentable et économe en énergie [6] [9].
- Spécialisation: chaque expert peut se spécialiser dans des tâches ou des domaines de connaissance spécifiques, conduisant à un traitement plus nuancé et précis de divers intrants [1] [9].
- Évolutivité: L'architecture MOE permet des modèles plus importants sans coûts de calcul excessifs, permettant le développement de systèmes d'IA plus complexes et capables [4] [6].

Dans l'ensemble, le processus de sélection des experts de Deepseek-V3 assure un mélange parfait de compétences en allouant dynamiquement les tâches aux experts spécialisés, en optimisant l'efficacité et en améliorant les performances du modèle.

Citations:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://www.herohunt.ai/blog/deepseeks-ai-model-revolutioning-global-cruitment
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepseek_v3_is_it_truly_better_than/
[6] https://alliedinsight.com/blog/deepseeks-technological-innovations-a-deep-dive-into-the-v3-model/
[7] https://huggingface.co/deepseek-ai/deepseek-v3
[8] https://mindflow.io/blog/deepseek-vs-openai-what-is-deepseek-what-does-deepseek-do
[9] https://tldv.io/blog/what-is-deepseek/
[10] https://www.bentoml.com/blog/the-complete-guide-to-epseek-models-from-v3-to-r1-and-byond