Sigmoidalne bramki w Deepseek-V3 odgrywa kluczową rolę w zapobieganiu upadkowi routingu, powszechnym problemem w modelach mieszanki ekspertów (MOE), w których kilku ekspertów jest konsekwentnie sprzyjających innym, co prowadzi do nieefektywnego szkolenia i wykorzystania zasobów modelowych. Oto, w jaki sposób Sigmoid Braming pomaga:
Tradycyjne bramki softmax vs. bramki sigmoidalne
Tradycyjne modele MOE często używają bramki softmax, co może prowadzić do scenariusza „zwycięzcy-uniesienia”. Wyjścia softmax są znormalizowane, aby upewnić się, że podsumowują 1, co może powodować ekstremalne prawdopodobieństwa, w których jeden ekspert jest wybierany prawie wyłącznie, szczególnie jeśli jego początkowe ciężary są nieco lepsze. Może to spowodować, że inni eksperci są niewykorzystani i podlegali, co prowadzi do upadku routingu.
W przeciwieństwie do tego, bramki sigmoidalne przypisuje każdemu ekspertowi wynik niezależnie od 0 do 1, bez normalizacji u ekspertów. Oznacza to, że wielu ekspertów może mieć wysokie wyniki jednocześnie, umożliwiając bardziej zrównoważony rozkład tokenów u ekspertów. Sigmoidalne bramki nie egzekwuje ścisłej konkurencji wśród ekspertów, zmniejszając prawdopodobieństwo upadku routingu, zapewniając, że każdy ekspert uzyska uczciwą szansę na wniesienie wkładu [1] [4] [6].
Dynamiczne regulacja odchylenia
DeepSeek-V3 dodatkowo zwiększa bramki sigmoidalne, wprowadzając dynamiczne terminy stronniczości dla każdego eksperta. Te uprzedzenia są dostosowywane podczas szkolenia w oparciu o obciążenie każdego eksperta. Jeśli ekspert zostanie przeciążony, jego uprzedzenie jest zmniejszone, aby zniechęcić do dalszego kierowania do niego, podczas gdy eksperci niedoinałowani zwiększają się, aby przyciągnąć więcej tokenów. Ta dynamiczna regulacja pomaga utrzymać zrównoważone obciążenie u wszystkich ekspertów, uniemożliwiając dowolnemu ekspertowi dominowanie w decyzjach dotyczących routingu, a tym samym zapobieganie upadkowi routingu [2] [4] [6].
Hierarchiczne bramkowanie
Deepseek-V3 stosuje również bramki hierarchiczne, które stosuje ograniczenia rzadkości na wielu poziomach. Początkowo dokonuje się gruboziarnisty wybór ekspertów, a następnie dokładniejsze filtrowanie w wybranych grupach. To hierarchiczne podejście zapewnia, że różnorodny zestaw ekspertów jest aktywowany dla każdego tokena, co dodatkowo zmniejsza ryzyko upadku routingu poprzez zapobieganie nadmiernej specjalizacji i zachęcając do uogólnienia w różnych domenach [1] [6].
routing ograniczony węzłem
Ponadto DeepSeek-V3 używa routingu ograniczonego węzłem, co ogranicza liczbę węzłów, z którymi każdy token może się komunikować. Strategia ta minimalizuje koszty komunikacji węzłowej, zapewniając efektywne szkolenie i wnioskowanie przy jednoczesnym zachowaniu zrównoważonego wykorzystania ekspertów [6].
Podsumowując, bramkowanie sigmoidalne w Deepseek-V3 pomaga zapobiegać upadkowi routingu, umożliwiając jednocześnie aktywowanie wielu ekspertów bez wymuszania ścisłej konkurencji między nimi. Dynamiczne dostosowanie stronniczości i bramkowanie hierarchiczne zapewniają dodatkowe informacje, że każdy ekspert jest skutecznie wykorzystywany, utrzymując zrównoważone obciążenie i uniemożliwiając dowolnym ekspercie w podejmowaniu decyzji dotyczących trasy.
Cytaty:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformer
[4] https://machinearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms