Sigmoid Gating in DeepSeek-V3: Zabránění kolapsu směrování v modelech směsi expertů

Jak pomáhá sigmoidní hradlování při prevenci kolapsu směrování v Deepseek-V3

Sigmoid Gating v Deepseek-V3 hraje klíčovou roli při prevenci kolapsu směrování, což je běžný problém v modelech směsi expertů (MOE), kde je několik odborníků důsledně upřednostňováno před ostatními, což vede k neefektivnímu školení a využití modelových zdrojů. Zde je, jak Sigmoid Gating pomáhá:

Tradiční Gating Softmax vs. Sigmoid Gating

Tradiční modely MOE často používají softmaxové hradlování, což může vést ke scénáři „vítěze-takes-all“. Výstupy SoftMax jsou normalizovány, aby se zajistilo, že shrnou na 1, což může vést k extrémní pravděpodobnosti, kdy je jeden odborník vybrán téměř výlučně, zejména pokud jsou jeho počáteční hmotnosti o něco lepší. To může způsobit, že ostatní odborníci budou nedostatečně využívány a podceňovány, což vede ke kolapsu směrování.

Naproti tomu Sigmoid Gating přiděluje každému odborníkovi skóre mezi 0 a 1 nezávisle bez normalizace u odborníků. To znamená, že více odborníků může mít vysoké skóre současně, což umožňuje vyváženější rozdělení žetonů napříč odborníky. Sigmoid Gating nevynucuje přísnou konkurenci mezi odborníky, což snižuje pravděpodobnost kolapsu směrování tím, že zajistí, že každý odborník dostane spravedlivou šanci přispět [1] [4] [6].

Nastavení dynamického zkreslení

DeepSeek-V3 dále zvyšuje sigmoidní hradlování zavedením termínů dynamického zkreslení pro každého odborníka. Tato zkreslení jsou upraveny během tréninku na základě zatížení každého odborníka. Pokud je odborník přetížen, jeho zkreslení je sníženo, aby se odradilo další směrování k němu, zatímco nedostatečně nahraní odborníci mají zvýšené zkreslení, aby přilákaly více tokenů. Tato dynamická úprava pomáhá udržovat vyvážené zatížení u všech odborníků a brání kterémukoli jedinému odborníkovi v dominanci rozhodnutí o směrování, a tak zabrání kolapsu směrování [2] [4] [6].

Hierarchical Gating

DeepSeek-V3 také používá hierarchické hradlování, které aplikuje omezení sparsity na více úrovních. Zpočátku se provádí hrubý výběr odborníků, následuje jemnější filtrování ve vybraných skupinách. Tento hierarchický přístup zajišťuje, že pro každý token je aktivován rozmanitý soubor odborníků, což dále snižuje riziko kolapsu směrování tím, že zabrání nadměrné specializaci a podporuje zobecnění napříč různými doménami [1] [6].

Směrování s omezeným uzlem

Kromě toho DeepSeek-V3 používá směrování s omezeným uzlem, což omezuje počet uzlů, se kterými každý token může komunikovat. Tato strategie minimalizuje režijní náklady mezi uzly a zajišťuje efektivní školení a odvození při zachování vyváženého využití odborníků [6].

Stručně řečeno, Sigmoid Gating in DeepSeek-V3 pomáhá zabránit kolapsu směrování tím, že umožňuje aktivaci více odborníků současně, aniž by mezi nimi nutil přísnou konkurenci. Úpravy dynamického zkreslení a hierarchické brány dále zajišťují, že každý odborník bude využíván efektivně, udržuje vyvážené zatížení a zabrání jakémukoli odborníkovi v dominanci směrovacích rozhodnutí.

Citace:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deeepseek-v3-picks-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kiskilabs.com/blog-posts/why-deepseek-v3-maters-in-the-world-of-llms