Le routage limité aux nœuds (NLR) dans Deepseek-V3 est une stratégie conçue pour optimiser les frais généraux de communication pendant la formation du modèle de mélange à grande échelle (MOE). Cette approche s'appuie sur des techniques antérieures telles que le routage limité par l'appareil utilisé dans Deepseek-V2, mais en mettant l'accent sur la réduction des coûts de communication entre les nœuds.
Composants clés de NLR
1. Restriger les interactions de nœuds: Dans NLR, chaque jeton est envoyé au plus aux nœuds $$ m $$, où $$ M $$ est généralement défini sur un petit nombre, comme 4 [7]. Cette restriction garantit que les jetons ne communiquent pas avec un nombre excessif de nœuds à travers le modèle, réduisant considérablement la synchronisation des nœuds transversales et la surcharge de communication [2] [5].
2. Sélection d'experts: Le processus de sélection consiste à identifier les nœuds de $$ M $$ TOP $$ qui contiennent des experts avec les scores d'affinité les plus élevés pour un jeton donné. Les derniers experts $$ k_r $$ sont ensuite choisis parmi ces nœuds sélectionnés [3]. Cette méthode garantit que la communication est ciblée et efficace, minimisant le transfert de données inutile entre les nœuds.
3. Équilibrage de la charge: Bien que NLR lui-même n'aborde pas directement l'équilibrage de la charge, Deepseek-V3 l'intégre avec d'autres stratégies d'équilibrage de charge. Par exemple, il utilise des termes de biais pour ajuster dynamiquement l'utilisation des experts, garantissant qu'aucun expert ne devient surchargé tandis que d'autres restent inactifs [1] [5]. Cette approche aide à maintenir l'efficacité de calcul sans s'appuyer fortement sur les pertes auxiliaires qui pourraient compromettre les performances du modèle.
Avantages de NLR
- Réduction des frais généraux de communication: En limitant le nombre de nœuds, chaque jeton peut communiquer avec, NLR diminue considérablement la quantité de données qui doivent être transférées entre les nœuds. Cette réduction des frais généraux de communication conduit à des temps d'entraînement et d'inférence plus rapides [2] [5].
- Amélioration de l'évolutivité: NLR permet à Deepseek-V3 de s'adapter plus efficacement, car il atténue les goulots d'étranglement provoqués par une communication inter-nœud excessive. Cette évolutivité est cruciale pour gérer les modèles MOE à grande échelle et le traitement de grandes quantités de données [3] [5].
- Efficacité de calcul améliorée: en s'assurant que les jetons sont traités dans un ensemble limité de nœuds, NLR aide à maintenir une charge de calcul équilibrée à travers le système. Cet équilibre est essentiel pour maximiser l'utilisation des ressources et minimiser les goulots d'étranglement des performances [4].
En résumé, le routage limité de nœuds dans Deepseek-V3 optimise les frais généraux de communication en restreignant le nombre de nœuds avec lesquels chaque jeton peut interagir, réduisant ainsi les coûts de communication à nœuds transversal et améliorant l'efficacité globale du système. Cette approche est complétée par des stratégies dynamiques d'équilibrage de la charge pour assurer une utilisation optimale des ressources pendant la formation et l'inférence du modèle.
Citations:
[1] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://martinfowler.com/articles/deepseek-papers.html
[4] https://github.com/deepseek-ai/open-enfra-index/blob/main/202502OpenSourceweek/day_6_one_more_thing_deepseekv3r1_inference_system_overview.md
[5] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[6] https://natlawreview.com/article/deepseek-ais-security-woes-impersonations-what-you-need-know
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/artificial-intelligence/how-implement-deepseek-locally