Funkcja aktywacji sigmoidalnej w routingu ekspertów Deepseek-V3

Jaką rolę odgrywa funkcja aktywacji sigmoidalnej w procesie eksperckim routingu Deepseek-V3

W DeepSeek-V3 funkcja aktywacji sigmoidów odgrywa kluczową rolę w procesie routingu ekspertów poprzez modyfikując sposób przypisywania tokenów do ekspertów. W przeciwieństwie do wcześniejszych wersji, w których zastosowano funkcję Softmax, Deepseek-V3 stosuje funkcję sigmoidalną do obliczenia wyników powinowactwa między tokenami i ekspertami. Ta zmiana pomaga zapobiec ekstremalnym prawdopodobieństwom selekcji ekspertów, co może prowadzić do upadku routingu, w której model faworyzuje kilku ekspertów nad innymi, zmniejszając korzyści z specjalizacji i wydajności.

funkcja aktywacji sigmoidów w routingu ekspertów

Funkcja sigmoidalna, oznaczona jako $$ \ sigma (\ cdot) $$, służy do obliczenia wyniku powinowactwa między tokenem a ekspertem. W szczególności wynik $$ s_ {i, t} $$ za token $$ t $$ i ekspert $$ i $$ jest obliczany jako:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Tam, gdzie $$ u_t $$ to osadzanie tokenu, a $$ e_i $$ jest wektorem środka eksperta $$ i $$. Ten wynik odzwierciedla, jak dobrze token jest zgodny z specjalnością eksperta.

Normalizacja i wybór

Po obliczeniu tych wyników DeepSeek-V3 normalizuje je i wybiera najlepsze-$$ K_R $$ Experts na podstawie tych znormalizowanych wyników. Proces ten zapewnia, że każdy token jest kierowany do podzbioru ekspertów, którzy są dla niego najbardziej odpowiednie, promując wydajne i wyspecjalizowane przetwarzanie.

Warunki odchylenia do równoważenia obciążenia

Aby zapobiec załamaniu routingu i zapewnić zrównoważony rozkład obciążenia między ekspertami, Deepseek-V3 wprowadza dynamicznie regulowane terminy stronniczości. Te terminy odchylenia są dodawane do wyników powinowactwa przed wybraniem najlepszych ekspertów. Jeśli ekspert zostanie przeciążony, jego termin odchylenia jest zmniejszony, a jeśli jest niedociął, termin tendencyjny jest zwiększony. Mechanizm ten zapewnia, że obciążenie pozostaje zrównoważone bez polegania na pomocniczych funkcjach utraty, co może negatywnie wpłynąć na wydajność modelu [1] [3].

Korzyści Sigmooid nad Softmax

Korzystanie z funkcji sigmoidalnej zamiast Softmax pomaga oddzielić prawdopodobieństwo wyboru różnych ekspertów. W Softmax prawdopodobieństwa są znormalizowane do sumowania do jednego, co może prowadzić do ekstremalnych prawdopodobieństw, gdy jeden ekspert jest znacznie uprzywilejowany. Z drugiej strony Sigmoid pozwala na bardziej elastyczne i niezależne przypisania prawdopodobieństwa, zmniejszając prawdopodobieństwo upadku routingu i promowania bardziej zrównoważonego wykorzystania ekspertów [4].

Ogólnie rzecz biorąc, funkcja aktywacji sigmoidów w Deepseek-V3 zwiększa zdolność modelu do wydajnego kierowania tokenów do odpowiednich ekspertów przy jednoczesnym zachowaniu zrównoważonego obciążenia, co jest kluczowe dla osiągnięcia wydajności i wydajności obliczeniowej w architekturach na dużą skalę (MOE).

Cytaty:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/neMo-framework/user-Guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-aktywacja-funkcja