Sigmoid Gating v Deepseek-V3: Prevencia kolapsu smerovania v modeloch zmesi expertov

Ako pomáha Sigmoid Gating pri predchádzaní kolapsu smerovania v Deepseek-V3

Sigmoidné hradlovanie v Deepseek-V3 zohráva rozhodujúcu úlohu pri prevencii kolapsu smerovania, čo je spoločný problém v modeloch zmesi expertov (MOE), v ktorých je niekoľko odborníkov pred ostatnými dôsledne uprednostňované, čo vedie k neefektívnemu výcviku a využívaniu modelových zdrojov. Takto pomáha Sigmoid Gating:

Tradičné softmax Gating vs. Sigmoid Gating

Tradičné modely MOE často používajú hradlovanie softmax, čo môže viesť k scenáru „víťazov a všetkých“. Výstupy softmax sú normalizované, aby sa zabezpečilo, že súčet na 1, čo môže viesť k extrémnym pravdepodobnostiam, keď je jeden odborník vybraný takmer výlučne, najmä ak sú jeho počiatočné hmotnosti o niečo lepšie. To môže spôsobiť, že ostatní odborníci sú nedostatočne využívaní a nedostatočne vyťažení, čo vedie k smerovaniu kolapsu.

Naproti tomu sigmoidné hradlovanie priraďuje každému odborníkovi skóre medzi 0 a 1 nezávisle, bez normalizácie medzi odborníkmi. To znamená, že viacerí odborníci môžu mať súčasne vysoké skóre, čo umožňuje vyváženejšie rozdelenie tokenov medzi odborníkmi. Sigmoid Gating nevynucuje prísnu konkurenciu medzi odborníkmi, čím sa zníži pravdepodobnosť kolapsu smerovania zabezpečením toho, aby každý odborník dostal spravodlivú šancu prispieť [1] [4] [6].

Dynamické nastavenie zaujatosti

Deepseek-V3 ďalej zvyšuje sigmoidné hradlovanie zavedením dynamických pojmov zaujatosti pre každého odborníka. Tieto predsudky sú upravené počas tréningu na základe zaťaženia každého odborníka. Ak je expert preťažený, jeho zaujatosť sa zníži, aby sa odradilo ďalšie smerovanie, zatiaľ čo podložené odborníci sa zvýšili zaujatosti, aby prilákali viac žetónov. Toto dynamické nastavenie pomáha udržiavať vyvážené zaťaženie všetkých odborníkov, zabraňuje tomu, aby sa akémukoľvek jedinému odborníkovi dominoval v rozhodnutiach o smerovaní, a tým zabránil kolapsu smerovania [2] [4] [6].

Hierarchické hradlo

Deepseek-V3 tiež využíva hierarchické hradlovanie, ktoré uplatňuje obmedzenia riedvitu na viacerých úrovniach. Spočiatku sa uskutoční hrubý výber odborníkov, po ktorých nasleduje jemnejšie filtrovanie vo vybraných skupinách. Tento hierarchický prístup zaisťuje, že pre každý token je aktivovaný rozmanitý súbor odborníkov, čím sa ďalej znižuje riziko kolapsu smerovania zabránením nadmernej špecializácie a podpore zovšeobecnenia v rôznych oblastiach [1] [6].

smerovanie s obmedzeným uzlom

Ďalej, DeepSeek-V3 používa smerovanie obmedzené uzolmi, ktoré obmedzuje počet uzlov, s ktorým môže každý token komunikovať. Táto stratégia minimalizuje režijné náklady na komunikáciu s krížovými uzlami, pričom zabezpečuje efektívne školenie a záver pri zachovaní vyváženého využívania odborníkov [6].

Stručne povedané, Sigmoid Gating v Deepseek-V3 pomáha predchádzať kolapsu smerovania tým, že umožňuje aktiváciu viacerých odborníkov súčasne bez toho, aby medzi nimi prinútilo prísnu konkurenciu. Dynamické úpravy zaujatosti a hierarchické hradlovanie ďalej zabezpečujú, aby sa každý odborník efektívne využíval, udržiaval vyvážené zaťaženie a zabránil tomu, aby sa akémukoľvek odborníkovi dominoval v rozhodnutiach o smerovaní.

Citácie:
[1] https://www.linkedin.com/posts/sathiyakeerthi_howdeepseek-v3-picks-picks-picks-picks-picks-experts-aktivity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformmer
[4] https://machinearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms