Deepseek-V3: Verbesserung des Expertenroutings mit Sigmoidfunktion in der Mischung von Experten Architektur

Wie wirkt sich die Sigmoidfunktion auf die Berechnung des Affinity-Scores in Deepseek-V3 aus?

In Deepseek-V3 spielt die Sigmoidfunktion eine entscheidende Rolle bei der Berechnung der Affinitätswerte für das Expertenrouting in der Mischung von Experten (MOE) -Architektur. Im Gegensatz zu herkömmlichen MOE-Modellen, die häufig die Softmax-Funktion verwenden, um Affinitätswerte zu normalisieren, verwendet Deepseek-V3 die Sigmoid-Funktion. Diese Änderung wirkt sich auf verschiedene Weise auf das Modell aus:

1. Normalisierung und Routing: Die Sigmoidfunktion wird verwendet, um die Affinitätswerte zu berechnen, die dann bei allen ausgewählten Affinitätswerten normalisiert werden, um die Gating -Werte zu erzeugen. Dieser Ansatz ermöglicht einen flexibleren und nuancierteren Routing -Mechanismus im Vergleich zu Softmax, was manchmal zu einem Routing -Zusammenbruch führen kann, bei dem bestimmte Experten übermäßig bevorzugt werden [4] [7].

2. Einsturz von Routing vermeiden: Routing -Zusammenbruch tritt auf, wenn die meisten Token in eine kleine Untergruppe von Experten weitergeleitet werden, was zu einer ineffizienten Verwendung von Rechenressourcen führt. Deepseek-V3 mindert dies durch die Verwendung von Sigmoid-Gating und die Einführung von Vorspannungsbegriffen, die sich während des Trainings dynamisch anpassen. Diese Vorspannungsbegriffe tragen dazu bei, die Last in Experten auszugleichen, ohne sich auf Hilfsverluste zu verlassen, die sich negativ auf die Modellleistung auswirken können [4] [9].

3.. Vorbettungsbedingungen und dynamische Anpassung: Das Modell enthält Vorspannungsbegriffe für jeden Experten, der zu den Affinitätswerten hinzugefügt wird, bevor die Top-K-Experten ausgewählt werden. Diese Vorspannungsbegriffe werden basierend auf der Ladung jedes Experten dynamisch eingestellt. Wenn ein Experte überlastet ist, nimmt sein Vorspannungsbegriff ab, und wenn er unterbelastet ist, nimmt der Vorspannungsbegriff zu. Dies gewährleistet eine ausgewogene Verteilung der Token über Experten, ohne dass zusätzliche Verluste erforderlich sind [4] [8].

4. Ergänzende Sequenz-Hinweis-Hilfsverlust: Obwohl Deepseek-V3 hauptsächlich Hilfsverluste vermeidet, enthält es einen kleinen Verlust des Sequenz-Wise-Gleichgewichts, um extreme Fälle zu verhindern, in denen eine einzige Sequenz eine kleine Untergruppe von Experten stark ermutigt. Dieser Verlust wirkt als Schutz, ohne die allgemeine Trainingsdynamik erheblich zu beeinflussen [4].

5. Knotenbegrenzter Routing: Um die Kommunikationskosten zu kontrollieren, verwendet Deepseek-V3 ein knotenbegrenztes Routing, wobei jedes Token an den meisten M-Knoten gesendet wird, die auf den höchsten Affinitätswerten basieren. Diese Strategie ermöglicht eine nahezu vollständige Rechenkommunikationsüberlappung während des Trainings und verbessert die Effizienz [4].

Insgesamt ermöglicht die Verwendung der Sigmoidfunktion in Deepseek-V3 einen flexibleren und effizienteren Routing-Mechanismus, der zur Fähigkeit des Modells beiträgt, die Expertenauslastung ohne Ausfall der Leistung in Einklang zu bringen.

Zitate:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-activity-7291477904792657920-Rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-yepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detction-with-output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-eplained-3-auxiliary-Loss-Free-Load-Balancing-4BeB734AB1F
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details