Vergleich von Experten-Routing-Mechanismen in Deepseek-V2 und Deepseek-V3

Was sind die Hauptunterschiede zwischen den Experten-Routing-Mechanismen in Deepseek-V2 und Deepseek-V3

Die Hauptunterschiede zwischen den Experten-Routing-Mechanismen in Deepseek-V2 und Deepseek-V3 können wie folgt zusammengefasst werden:

Deepseek-V2 Expert-Routing

-Gerätsbegrenzter Routing-Mechanismus: Deepseek-V2 verwendet einen Geräteinschränkungsmechanismus, um Experten auf mehrere Geräte zu verteilen. Dieser Ansatz stellt sicher, dass die Zielexperten für jeden Token auf eine begrenzte Anzahl von Geräten verteilt sind und in der Regel die Top-K-Experten aus diesen Geräten auswählen. Diese Strategie hilft bei der Verwaltung von Kommunikationsaufwand und sorgt für eine effiziente parallele Verarbeitung [1] [5].

-Hilfsverluste für die Lastbilanz: Deepseek-V2 führt drei Arten von Hilfsverlusten auf, um die Lastbilanz während des Trainings aufrechtzuerhalten. Diese Verluste verhindern das Routing -Zusammenbruch, indem sichergestellt wird, dass kein einziger Experte übermäßig genutzt wird, während andere nicht ausreichend ausgelastet bleiben [1] [6].

- Anzahl der Experten und Aktivierung: Deepseek-V2 verfügt über 160 Experten sowie zwei gemeinsame Experten, wobei nur sechs Experten während der Inferenz aktiviert werden. Diese selektive Aktivierung reduziert die Anzahl der aktiven Parameter erheblich und macht das Modell effizienter [5].

Deepseek-V3 Expert Routing

- Erhöhte Expertenspezialisierung: Deepseek-V3 baut auf der MOE-Architektur auf, indem die Anzahl der Routed-Experten pro Schicht um 60%erhöht wird, von 160 auf 256. Diese Erhöhung verbessert die Fähigkeit des Modells für Wissen und Gedächtnis [2].

- gemeinsame Experten: Deepseek-V3 behält das Konzept der gemeinsamen Experten bei, die immer aktiviert werden. Jede Feed-Forward-Netzwerkschicht (FFN) verfügt über einen gemeinsam genutzten Experten, und es gibt drei Schichten, in denen alle Experten aktiviert werden, wodurch die Fähigkeit des Modells verbessert wird, allgemein bekanntes Wissen über Kontexte hinweg zu erfassen [2] [4].

-Token-to-Expert-Affinität: Die Zuordnung von Token zu Experten basiert auf einer Token-zu-Experten-Affinität im Einbettungsraum. Deepseek-V3 steht jedoch vor Herausforderungen im Zusammenhang mit dem Routing-Zusammenbruch, wo Token konsequent an dieselben Experten weitergeleitet werden können, was möglicherweise die Ausbildung anderer Experten behindert [2].

- Aggressive MOE-Strategie: Deepseek-V3 verfolgt eine aggressivere MOE-Strategie, wobei die FP8-Präzision für das Training verwendet wird, was eine effizientere Berechnung und Skalierung ermöglicht. Dieser Ansatz ermöglicht es dem Modell, eine spärliche Aktivierung effektiv zu nutzen und die Verwendung von Parametern während der Inferenz zu optimieren [2] [4].

Zusammenfassend, während beide Modelle MOE-Architekturen für effiziente Routing und spärliche Aktivierung verwenden, verbessert Deepseek-V3 diesen Ansatz mit erhöhten Expertenspezialisierung, aggressiveren MOE-Strategien und Anpassungen für gemeinsame Expertenkonfigurationen. Deepseek-V2 konzentriert sich auf wirtschaftliche Schulungen und effiziente Schlussfolgerungen durch Geräteinschränkungen von Routing und Hilfsverlusten für das Ladungsausgleich.

Zitate:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-effiction
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda