Comparaison des mécanismes de routage experts dans Deepseek-V2 et Deepseek-V3

Quelles sont les principales différences entre les mécanismes de routage experts dans Deepseek-V2 et Deepseek-V3

Les principales différences entre les mécanismes de routage experts dans Deepseek-V2 et Deepseek-V3 peuvent être résumées comme suit:

Route experte Deepseek-V2

- Mécanisme de routage limité par l'appareil: Deepseek-V2 utilise un mécanisme de routage limité par l'appareil pour distribuer des experts sur plusieurs appareils. Cette approche garantit que les experts cibles pour chaque jeton sont répartis sur un nombre limité d'appareils, sélectionnant généralement les experts Top-K à partir de ces appareils. Cette stratégie aide à gérer les frais généraux de communication et assure un traitement parallèle efficace [1] [5].

- Pertes auxiliaires pour l'équilibre de la charge: Deepseek-V2 introduit trois types de pertes auxiliaires - au niveau expert, au niveau de l'appareil et au niveau de la communication pour maintenir l'équilibre de la charge pendant la formation. Ces pertes aident à prévenir l'effondrement du routage en garantissant qu'aucun expert unique n'est trop utilisé tandis que d'autres restent sous-utilisés [1] [6].

- Nombre d'experts et activation: Deepseek-V2 compte 160 experts plus deux experts partagés, avec seulement six experts activés pendant l'inférence. Cette activation sélective réduit considérablement le nombre de paramètres actifs, ce qui rend le modèle plus efficace [5].

Route experte Deepseek-V3

- Spécialisation accrue des experts: Deepseek-V3 s'appuie sur l'architecture MOE en augmentant le nombre d'experts routés par couche de 60%, de 160 à 256. Cette augmentation améliore la capacité du modèle de connaissances et de mémoire [2].

- Experts partagés: Deepseek-V3 conserve le concept d'experts partagés, qui sont toujours activés. Chaque couche de réseau de nourriture (FFN) a un expert partagé, et il y a trois couches où tous les experts sont activés, améliorant la capacité du modèle à capturer une connaissance commune dans les contextes [2] [4].

- Affinité des jetons à l'expert: l'affectation de jetons aux experts est basée sur l'affinité des jetons à expert dans l'espace d'incorporation. Cependant, Deepseek-V3 fait face à des défis liés à l'effondrement du routage, où les jetons peuvent constamment être acheminés vers les mêmes experts, ce qui pourrait entraver la formation d'autres experts [2].

- Stratégie agressive du MOE: Deepseek-V3 adopte une stratégie MOE plus agressive, en utilisant la précision FP8 pour la formation, ce qui permet un calcul et une mise à l'échelle plus efficaces. Cette approche permet au modèle de tirer parti de l'activation clairsemée efficacement, optimisant l'utilisation de paramètres pendant l'inférence [2] [4].

En résumé, alors que les deux modèles utilisent des architectures MOE pour un routage efficace et une activation clairsemée, Deepseek-V3 améliore cette approche avec une spécialisation experte accrue, des stratégies MOE plus agressives et des ajustements aux configurations d'experts partagés. Deepseek-V2 se concentre sur une formation économique et une inférence efficace grâce à un routage limité par l'appareil et à des pertes auxiliaires d'équilibrage de charge.

Citations:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-hge-llm-with-efesive
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda