Sigmoid-Aktivierungsfunktion im Expertenrouting von Deepseek-V3

Welche Rolle spielt die Sigmoid-Aktivierungsfunktion im Experten-Routing-Prozess von Deepseek-V3?

In Deepseek-V3 spielt die Sigmoid-Aktivierungsfunktion eine entscheidende Rolle im Experten-Routing-Prozess, indem er Experten geändert hat, wie Tokens zugewiesen werden. Im Gegensatz zu früheren Versionen, die eine Softmax-Funktion verwendeten, verwendet Deepseek-V3 eine Sigmoid-Funktion, um die Affinitätswerte zwischen Token und Experten zu berechnen. Diese Veränderung verhindert extreme Auswahlwahrscheinlichkeiten, die zu einem Zusammenbruch von Routing führen können, in der das Modell ein paar Experten gegenüber anderen bevorzugt und die Vorteile von Spezialisierung und Effizienz verringert.

Sigmoid -Aktivierungsfunktion im Expertenrouting

Die Sigmoid -Funktion, die als $$ \ sigma (\ cdot) $$ bezeichnet wird, wird verwendet, um den Affinitätswert zwischen einem Token und einem Experten zu berechnen. Insbesondere die Punktzahl $$ S_ {i, t} $$ für token $$ t $$ und Expert $$ i $$ wird berechnet als:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
wobei $$ u_t $$ das Token -Einbettung ist und $$ e_i $$ der Zentroidvektor des Experten $$ i $$. Diese Punktzahl spiegelt wider, wie gut das Token mit der Spezialität des Experten übereinstimmt.

Normalisierung und Auswahl

Nach der Berechnung dieser Bewertungen normalisiert Deepseek-V3 sie und wählt die oberen-$$ k_r $$-Experten anhand dieser normalisierten Bewertungen aus. Dieser Prozess stellt sicher, dass jedes Token in eine Untergruppe von Experten weitergeleitet wird, die für ihn am relevantesten sind, und die effiziente und spezialisierte Verarbeitung fördert.

Bias -Begriffe für den Lastausgleich

Um das Routing-Zusammenbruch zu verhindern und eine ausgewogene Lastverteilung unter Experten zu gewährleisten, führt Deepseek-V3 dynamisch einstellbare Vorspannungsbegriffe ein. Diese Vorspannungsbegriffe werden zu den Affinitätswerten hinzugefügt, bevor die Top -Experten ausgewählt werden. Wenn ein Experte überlastet ist, wird sein Vorspannungsbegriff verringert, und wenn er unterbelastet ist, wird der Vorspannungsbegriff erhöht. Dieser Mechanismus stellt sicher, dass die Last ausgeglichen bleibt, ohne sich auf Hilfsverlustfunktionen zu verlassen, was die Modellleistung negativ beeinflussen kann [1] [3].

Vorteile von Sigmoid gegenüber Softmax

Die Verwendung einer Sigmoidfunktion anstelle von Softmax hilft, die Auswahlwahrscheinlichkeiten verschiedener Experten zu entkoppeln. In Softmax werden die Wahrscheinlichkeiten so normalisiert, dass sie zu einem summiert werden, was zu extremen Wahrscheinlichkeiten führen kann, wenn ein Experte erheblich bevorzugt wird. Sigmoid hingegen ermöglicht flexiblere und unabhängige Wahrscheinlichkeitszuordnungen, wodurch die Wahrscheinlichkeit des Routings des Zusammenbruchs verringert und eine ausgewogenere Expertennutzung fördert [4].

Insgesamt verbessert die Sigmoid-Aktivierungsfunktion in Deepseek-V3 die Fähigkeit des Modells, Token effizient an relevante Experten zu leiten und gleichzeitig eine ausgewogene Arbeitsbelastung beizubehalten, was für die Erzielung hoher Leistung und Recheneffizienz bei großflächigen Mischung aus Experten (MOE) Architekturen von entscheidender Bedeutung ist.

Zitate:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/undstanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function