DeepSeek-V3: Zwiększenie routingu ekspertów o funkcję sigmoidalną w mieszaninie architektury ekspertów

W jaki sposób funkcja sigmoidalna wpływa na obliczenie wyniku powinowactwa w Deepseek-V3

W DeepSeek-V3 funkcja sigmoidalna odgrywa kluczową rolę w obliczaniu wyników powinowactwa do routingu ekspertów w mieszaninie architektury ekspertów (MOE). W przeciwieństwie do tradycyjnych modeli MOE, które często wykorzystują funkcję Softmax do normalizacji wyników powinowactwa, Deepseek-V3 stosuje funkcję sigmoidalną. Ta zmiana wpływa na model na kilka sposobów:

1. Normalizacja i routing: Funkcja sigmoidalna służy do obliczenia wyników powinowactwa, które są następnie znormalizowane między wszystkimi wybranymi wynikami powinowactwa w celu uzyskania wartości bramkowania. Takie podejście pozwala na bardziej elastyczny i dopracowany mechanizm routingu w porównaniu z softmaxem, który czasami może prowadzić do upadku routingu tam, gdzie niektórzy eksperci są zbyt uprzywilejowani [4] [7].

2. Unikanie zapadania się routingu: Zakochanie routingu występuje, gdy większość tokenów jest kierowana do niewielkiego podzbioru ekspertów, co prowadzi do nieefektywnego wykorzystania zasobów obliczeniowych. DeepSeek-V3 łagodzi to za pomocą bramkowania sigmoidalnego i wprowadzania terminów stronniczości, które dynamicznie dostosowują się podczas treningu. Te terminy odchylenia pomagają zrównoważyć obciążenie między ekspertami bez polegania na stratach pomocniczych, które mogą negatywnie wpłynąć na wydajność modelu [4] [9].

3. Warunki odchylenia i dostosowanie dynamiczne: Model zawiera terminy stronniczości dla każdego eksperta, które są dodawane do wyników powinowactwa przed wybraniem ekspertów najwyższych K. Te terminy odchylenia są dynamicznie dostosowywane na podstawie obciążenia każdego eksperta. Jeśli ekspert zostanie przeciążony, jego termin odchylenia maleje, a jeśli jest niedociął, termin odchylenia wzrasta. Zapewnia to zrównoważony rozkład tokenów u ekspertów bez potrzeby dodatkowych strat [4] [8].

4. Uzupełniająca sekwencja, strata pomocnicza: chociaż Deepseek-V3 przede wszystkim unika strat pomocniczych, obejmuje niewielką utratę równowagi sekwencji, aby zapobiec ekstremalnym przypadkom, w których pojedyncza sekwencja sprzyja niewielkiej podzbiorze ekspertów. Ta strata działa jako zabezpieczenie bez znaczącego wpływu na ogólną dynamikę treningu [4].

5. Rooting ograniczony do węzłów: Aby kontrolować koszty komunikacji, Deepseek-V3 wykorzystuje routing ograniczony węzłem, w którym każdy token jest wysyłany do większości węzłów M na podstawie najwyższych wyników powinowactwa. Ta strategia umożliwia przepełnioną liczbę obliczeń nakładania się podczas treningu, zwiększenie wydajności [4].

Ogólnie rzecz biorąc, zastosowanie funkcji sigmoidalnej w DeepSeek-V3 pozwala na bardziej elastyczny i wydajny mechanizm routingu, przyczyniając się do zdolności modelu do zrównoważenia wykorzystania ekspertów bez poświęcania wydajności.

Cytaty:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deplearning-neuralNetWorks-activity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wKztsfYWVFSIIBHWXEQMF1/four-Unique-takeAways-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with output.html
[4] https://machinearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explained-3-auxiliary-loss-load-balans-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdspr.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details