Sigmoid-gating i Deepseek-V3 spiller en afgørende rolle i at forhindre routing-sammenbrud, et almindeligt problem i blanding af eksperter (MOE) modeller, hvor nogle få eksperter konsekvent er favoriseret over andre, hvilket fører til ineffektiv træning og anvendelse af modelressourcer. Her er hvordan sigmoid gating hjælper:
Traditionel Softmax Gating vs. Sigmoid Gating
Traditionelle MOE-modeller bruger ofte SoftMax Gating, hvilket kan føre til et "vinder-tag-alle" -scenarie. SoftMax -udgange normaliseres for at sikre, at de summerer til 1, hvilket kan resultere i ekstreme sandsynligheder, hvor en ekspert næsten udelukkende vælges, især hvis dens oprindelige vægte er lidt bedre. Dette kan få andre eksperter til at blive underudnyttet og undertrained, hvilket fører til routing sammenbrud.
I modsætning hertil tildeler Sigmoid Gating hver ekspert en score mellem 0 og 1 uafhængigt uden normalisering på tværs af eksperter. Dette betyder, at flere eksperter kan have høje score samtidigt, hvilket muliggør en mere afbalanceret fordeling af tokens på tværs af eksperter. Sigmoid Gating håndhæver ikke en streng konkurrence blandt eksperter, hvilket reducerer sandsynligheden for at routing af sammenbrud ved at sikre, at hver ekspert får en rimelig chance for at bidrage [1] [4] [6].
Dynamisk biasjustering
DeepSeek-V3 forbedrer signusisk gating yderligere ved at introducere dynamiske bias-udtryk for hver ekspert. Disse partier justeres under træning baseret på belastningen af hver ekspert. Hvis en ekspert er overbelastet, reduceres dens bias for at afskrække yderligere routing til den, mens underbelastede eksperter får deres partier forøget for at tiltrække flere symboler. Denne dynamiske justering hjælper med at opretholde en afbalanceret belastning på tværs af alle eksperter, hvilket forhindrer enhver enkelt ekspert i at dominere routingbeslutningerne og dermed forhindre routing -sammenbrud [2] [4] [6].
Hierarkisk port
Deepseek-V3 anvender også hierarkisk port, der anvender sparsitetsbegrænsninger på flere niveauer. Oprindeligt foretages et groft udvalg af eksperter efterfulgt af finere filtrering inden for udvalgte grupper. Denne hierarkiske tilgang sikrer, at et forskelligt sæt eksperter aktiveres for hvert token, hvilket yderligere reducerer risikoen for at dirigere sammenbrud ved at forhindre overspecialisering og tilskynde til generalisering på tværs af forskellige domæner [1] [6].
Node-begrænset routing
Derudover bruger DeepSeek-V3 knudebegrænset routing, der begrænser antallet af noder, som hver token kan kommunikere med. Denne strategi minimerer tværnom-kommunikationsomkostninger, hvilket sikrer effektiv træning og inferens, mens den opretholder afbalanceret ekspertudnyttelse [6].
I sammendraget hjælper sigmoidpating i Deepseek-V3 med at forhindre routing sammenbrud ved at lade flere eksperter aktiveres samtidig uden at tvinge en streng konkurrence blandt dem. Den dynamiske biasjustering og hierarkiske port sikrer endvidere, at hver ekspert bruges effektivt, opretholder en afbalanceret belastning og forhindrer enhver ekspert i at dominere routingbeslutningerne.
Citater:
)
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-forbedret-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-arkitecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms