Sigmoid Gating in DeepSeek-V3: Forebygging av rutingkollaps i modeller med blanding av eksperter

Hvordan hjelper sigmoid gating med å forhindre ruting kollaps i DeepSeek-V3

Sigmoid gating i DeepSeek-V3 spiller en avgjørende rolle i å forhindre rutingskollaps, et vanlig spørsmål i modeller med blanding av eksperter (MOE) der noen få eksperter konsekvent er foretrukket over andre, noe som fører til ineffektiv trening og bruk av modellressurser. Slik hjelper sigmoid gating:

tradisjonell softmax gating vs. sigmoid gating

Tradisjonelle MOE-modeller bruker ofte softmax-gating, noe som kan føre til et "vinner-ta-alt" -scenario. SoftMax -utgangene normaliseres for å sikre at de summer til 1, noe som kan resultere i ekstreme sannsynligheter der en ekspert blir valgt nesten utelukkende, spesielt hvis de første vektene er litt bedre. Dette kan føre til at andre eksperter blir underutnyttet og understyrt, noe som fører til rutingskollaps.

I kontrast tildeler sigmoid gating hver ekspert en poengsum mellom 0 og 1 uavhengig, uten normalisering på tvers av eksperter. Dette betyr at flere eksperter kan ha høye score samtidig, noe som gir en mer balansert distribusjon av symboler på tvers av eksperter. Sigmoid -gating håndhever ikke en streng konkurranse blant eksperter, noe som reduserer sannsynligheten for å ruting kollaps ved å sikre at hver ekspert får en god sjanse til å bidra [1] [4] [6].

Dynamisk skjevhetsjustering

DeepSeek-V3 forbedrer Sigmoid-gating ytterligere ved å innføre dynamiske skjevhetsbetingelser for hver ekspert. Disse skjevhetene justeres under trening basert på belastningen til hver ekspert. Hvis en ekspert er overbelastet, reduseres skjevheten for å fraråde ytterligere ruting til den, mens underbelastede eksperter har sine skjevheter økt for å tiltrekke seg flere symboler. Denne dynamiske justeringen hjelper til med å opprettholde en balansert belastning på tvers av alle eksperter, og forhindrer at enhver enkelt ekspert dominerer rutingsbeslutningene og dermed forhindrer rutingskollaps [2] [4] [6].

Hierarkisk gating

DeepSeek-V3 bruker også hierarkisk gating, som bruker sparsitetsbegrensninger på flere nivåer. Opprinnelig blir et grovt utvalg av eksperter laget, etterfulgt av finere filtrering i utvalgte grupper. Denne hierarkiske tilnærmingen sikrer at et mangfoldig sett med eksperter aktiveres for hvert symbol, noe som ytterligere reduserer risikoen for rutingkollaps ved å forhindre overspesialisering og oppmuntre til generalisering på tvers av forskjellige domener [1] [6].

Node-begrenset ruting

I tillegg bruker DeepSeek-V3 node-begrenset ruting, som begrenser antall noder hver token kan kommunisere med. Denne strategien minimerer tverrnode kommunikasjon overhead, og sikrer effektiv trening og inferens samtidig som den opprettholder balansert ekspertutnyttelse [6].

Oppsummert hjelper Sigmoid Gating i DeepSeek-V3 med å forhindre rutingskollaps ved å la flere eksperter aktiveres samtidig uten å tvinge en streng konkurranse blant dem. Den dynamiske skjevhetsjusteringen og hierarkisk gating sikrer videre at hver ekspert brukes effektivt, og opprettholder en balansert belastning og forhindrer enhver ekspert fra å dominere rutingsbeslutningene.

Sitasjoner:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-preepseek-v3-picks-perfect-eksperts- Activity-7287631625310412800-NCYV
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-depseek-improved-the-ransformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-arkitektur
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-depseek-v3-matters-in-the- av-lms