Sigmoid-Gating in Deepseek-V3: Verhindern des Routing-Zusammenbruchs in Modellen der Expertenmischung

Wie hilft Sigmoid Gating bei der Verhinderung des Routing-Zusammenbruchs in Deepseek-V3

Sigmoid-Gating in Deepseek-V3 spielt eine entscheidende Rolle bei der Verhinderung von Routing-Kollaps. So hilft Sigmoid Gating:

Traditionelles Softmax -Gating gegen Sigmoid -Gating

Traditionelle MOE-Modelle verwenden oft Softmax-Gating, was zu einem "Gewinner-Takes-All" -Szenario führen kann. Softmax -Ausgänge werden normalisiert, um sicherzustellen, dass sie auf 1 summieren, was zu extremen Wahrscheinlichkeiten führen kann, bei denen ein Experte fast ausschließlich ausgewählt wird, insbesondere wenn seine anfänglichen Gewichte etwas besser sind. Dies kann dazu führen, dass andere Experten nicht genutzt und unterzogen werden, was zum Zusammenbruch von Routing führt.

Im Gegensatz dazu weist Sigmoid Gating jedem Experten eine Punktzahl zwischen 0 und 1 unabhängig, ohne Normalisierung zwischen Experten zu weist. Dies bedeutet, dass mehrere Experten gleichzeitig hohe Punktzahlen haben können, was eine ausgewogenere Verteilung von Token über Experten hinweg ermöglicht. Sigmoid Gating erzwingt keinen strengen Wettbewerb unter Experten und verringert die Wahrscheinlichkeit, dass der Zusammenbruch des Routings eingeht, indem sichergestellt wird, dass jeder Experte eine faire Chance hat, einen Beitrag zu leisten [1] [4] [6].

Dynamische Vorspannungsanpassung

Deepseek-V3 verbessert das Sigmoid-Gating weiter durch die Einführung dynamischer Vorurteile für jeden Experten. Diese Verzerrungen werden während des Trainings basierend auf der Ladung jedes Experten angepasst. Wenn ein Experte überlastet ist, wird seine Verzerrung verringert, um weiter zu verhindern, während unterbelastete Experten ihre Verzerrungen erhöht haben, um mehr Token anzuziehen. Diese dynamische Anpassung hilft dabei, eine ausgewogene Belastung für alle Experten aufrechtzuerhalten, um zu verhindern, dass ein einzelner Experte die Routing -Entscheidungen dominiert und somit den Zusammenbruch des Routings verhindert [2] [4] [6].

Hierarchisches Gating

Deepseek-V3 verwendet auch hierarchisches Gating, das Sparsity-Einschränkungen auf mehreren Ebenen anwendet. Zunächst wird eine grobe Auswahl von Experten durchgeführt, gefolgt von einer feineren Filterung in ausgewählten Gruppen. Dieser hierarchische Ansatz stellt sicher, dass für jedes Token eine Vielzahl von Experten aktiviert wird, wodurch das Risiko des Routing-Zusammenbruchs weiter verringert wird, indem die Überspezialisierung verhindern und die Verallgemeinerung über verschiedene Bereiche hinweg gefördert werden [1] [6].

Knotenbegrenzter Routing

Darüber hinaus verwendet Deepseek-V3 ein knotenbegrenztes Routing, wodurch die Anzahl der Knoten einschränkt, mit denen jedes Token kommunizieren kann. Diese Strategie minimiert die Kommunikationsaufwand für den Noden-Kommunikation und sorgt für eine effiziente Ausbildung und Inferenz und die ausgewogene Nutzung der Experten [6].

Zusammenfassend lässt sich sagen, dass Sigmoid Gating in Deepseek-V3 dazu beiträgt, dass das Routing-Zusammenbruch einsteigt, indem mehrere Experten gleichzeitig aktiviert werden können, ohne einen strengen Wettbewerb unter ihnen zu erzwingen. Die dynamische Vorspannungsanpassung und das hierarchische Gating stellen weiter sicher, dass jeder Experte effektiv genutzt wird, wodurch eine ausgewogene Belastung aufrechterhalten wird und ein Experte daran hindert, die Routing -Entscheidungen zu dominieren.

Zitate:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-leepseek-v3-picks-perfect-experts-activity-7287631625310412800-Ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-teepseek-improved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-leepseek-v3-matters-in-the-world-of-lms