W Deepseek-V3 wynik powinowactwa odgrywa kluczową rolę w procesie selekcji ekspertów w architekturze mieszanki ekspertów (MOE). Architektura ta została zaprojektowana tak, aby skutecznie obsługiwać zadania modelowania języków na dużą skalę poprzez dynamiczne aktywowanie podzbioru ekspertów na podstawie tokenów wejściowych.
obliczenie wyniku powinowactwa
Ocena powinowactwa jest obliczana jako produkt kropki osadzania tokena wejściowego i środki ciężarowe konkretnego eksperta. Centroid może być traktowany jako reprezentatywny wektor dla każdego eksperta, który może wynikać ze średnich aktywacji lub danych wejściowych, które przetwarza ekspert. Ten produkt DOT mierzy, jak ściśle wyrównany jest token z wiedzą każdego dostępnego eksperta.
Proces selekcji ekspertów ###
1. TOP-K routing: Dla każdego tokena wejściowego DeepSeek-V3 wybiera 8 najlepszych ekspertów z najwyższymi wynikami powinowactwa. Proces ten jest znany jako routing Top-K, gdzie K jest ustalany na 8 w tym przypadku [1] [7].
2. Dostosowanie stronniczości: Aby zapobiec upadkowi routingu, w którym zbyt wiele tokenów jest kierowanych do tych samych ekspertów, Deepseek-V3 wprowadza dynamiczną regulację stronniczości. Każdy ekspert ma termin stronniczości $$ B_I $$, który jest dodawany do wyniku powinowactwa podczas routingu. Jeśli ekspert zostanie przeciążony, jego uprzedzenie jest zmniejszone, a jeśli jest niewykorzystane, jego uprzedzenie jest zwiększone. Ta regulacja pomaga utrzymać zrównoważone obciążenie pracą u wszystkich ekspertów bez użycia wyraźnych strat pomocniczych [1] [3].
3. Mechanizm bramkowania: Mechanizm bramkowania oblicza wynik dla każdego tokena i wybiera najbardziej odpowiednich ekspertów w oparciu o te wyniki. Zapewnia to, że model skutecznie przydziela zasoby obliczeniowe poprzez aktywację niezbędnych ekspertów dla każdego tokena [3].
Korzyści z wyniku powinowactwa
- Wydajność: Wybierając ekspertów na podstawie wyników powinowactwa, DeepSeek-V3 zmniejsza koszty obliczeniowe, aktywując jedynie ułamek całkowitych parametrów modelu dla każdego tokena. Powoduje to bardziej wydajne procesy wnioskowania i szkoleniowe [4] [8].
- Specjalizacja: wynik powinowactwa pozwala na lepszą specjalizację wśród ekspertów. Każdy ekspert może skupić się na określonych wzorcach lub zadaniach, zwiększając ogólną moc reprezentacyjną i zdolność do radzenia sobie z różnorodnymi wejściami [1] [2].
- Stabilność: Dynamiczne dostosowanie stronniczości zapewnia, że żaden ekspert nie jest przeciążony, utrzymując stabilność zarówno podczas szkolenia, jak i wnioskowania. Zapobiega to upuszczaniu tokenów z powodu przeciążenia, co było problemem we wcześniejszych wersjach [2] [3].
Podsumowując, wynik powinowactwa w DeepSeek-V3 ma kluczowe znaczenie dla dynamicznego wyboru najbardziej odpowiednich ekspertów dla każdego tokena wejściowego, zapewniając wydajne i wyspecjalizowane przetwarzanie przy jednoczesnym utrzymaniu stabilności modelu.
Cytaty:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamicznie-selecting-number-expert-moe-models-take-deepseek-ROSI%C4%87-CKYTF
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-r1-and-beyond