„Sigmoid“ vartai „Deepseeek-V3“: užkirsti kelią maršruto griūties modeliams mišinyje

Kaip „Sigmoid Gating“ padeda užkirsti kelią maršruto žlugimui „Deepseeek-V3“

„Sigmoid“ vartai „Deepseeek-V3“ vaidina lemiamą vaidmenį užkirsti kelią maršruto žlugimui-tai bendra problema, esanti ekspertų mišinyje (MOE) modeliuose, kai keli ekspertai yra nuolat teikiami palankiai palyginti su kitais, o tai lemia neefektyvų modelio išteklių mokymą ir panaudojimą. Štai kaip padeda „Sigmoid Gating“:

Tradicinis „SoftMax Gating“ ir „Sigmoid Gating“

Tradiciniai MOE modeliai dažnai naudoja „SoftMax“ vartus, o tai gali sukelti scenarijų „nugalėtojais-visiems“. „SoftMax“ išėjimai yra normalizuojami, kad jie būtų sumuojami iki 1, o tai gali sukelti ekstremalias tikimybes, kai vienas ekspertas pasirenkamas beveik vien tik, ypač jei jo pradiniai svoriai yra šiek tiek geresni. Dėl to kiti ekspertai gali būti nepakankamai išnaudojami ir nepakankamai apmokyti, todėl žlugti maršrutas.

Priešingai, „Sigmoid“ vartai kiekvienam ekspertui priskiria balas nuo 0 iki 1 savarankiškai, be normalizavimo tarp ekspertų. Tai reiškia, kad keli ekspertai vienu metu gali turėti aukštus balus, leidžiančius labiau subalansuoti žetonų platinimą tarp ekspertų. „Sigmoid Gating“ neužtikrina griežtos ekspertų konkurencijos, sumažindama maršruto žlugimo tikimybę užtikrinant, kad kiekvienas ekspertas gautų teisingą galimybę prisidėti [1] [4] [6].

dinaminis šališkumo reguliavimas

„Deepseek-V3“ dar labiau sustiprina „Sigmoid“ vartus, įvedant dinaminius šališkumo terminus kiekvienam ekspertui. Šie šališkumai yra koreguojami treniruočių metu, atsižvelgiant į kiekvieno eksperto apkrovą. Jei ekspertas yra perkrautas, jo šališkumas sumažėja, kad atgrasytų nuo tolesnio maršruto į jį, o nepakankamai apkrovos ekspertai padidėjo, kad pritrauktų daugiau žetonų. Šis dinaminis koregavimas padeda išlaikyti subalansuotą apkrovą visiems ekspertams, užkertant kelią bet kuriam ekspertui dominuoti maršruto parinkimo sprendimus ir taip užkirsti kelią maršruto žlugimui [2] [4] [6].

hierarchinis vartai

„Deepseek-V3“ taip pat naudoja hierarchinį vartą, kuris taiko daugybės apribojimus keliais lygiais. Iš pradžių atliekamas šiurkštus ekspertų pasirinkimas, po kurio seka smulkesnis filtravimas pasirinktose grupėse. Šis hierarchinis požiūris užtikrina, kad kiekvienam prieigos raktui būtų suaktyvintas įvairus ekspertų rinkinys, dar labiau sumažindamas maršruto žlugimo riziką, užkertant kelią per didelei specializacijai ir skatinant apibendrinimą skirtingose srityse [1] [6].

mazgų ribotas maršrutas

Be to, „Deepseek-V3“ naudoja mazgų ribotą maršrutą, kuris riboja mazgų skaičių, su kuriuo gali susisiekti kiekvienas ženklas. Ši strategija sumažina įvairių mazgų komunikacijos pridėtines išlaidas, užtikrinant efektyvų mokymą ir išvadą, išlaikant subalansuotą ekspertų panaudojimą [6].

Apibendrinant galima pasakyti, kad „Deepseek-V3“ „Sigmoid“ vartai padeda išvengti maršruto žlugimo, nes leidžiama vienu metu suaktyvinti kelis ekspertus, nepriverčiant griežtos konkurencijos tarp jų. Dinaminis šališkumo koregavimas ir hierarchinis vartai taip pat užtikrina, kad kiekvienas ekspertas būtų efektyviai panaudotas, išlaikydamas subalansuotą apkrovą ir neleidžiant bet kuriam ekspertui dominuoti maršruto parinkimo sprendimuose.

Citatos:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-sepseek-v3-picks-perfect-experts-activity-7287631625310412800-NCYV
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformer
[4] https://machinelarningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architcture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms