DeepSeek-V3: Forbedring af ekspertrutning med sigmoid funktion i blanding af eksperter Arkitektur

Hvordan påvirker Sigmoid-funktionen beregningen af affinitetsscore i DeepSeek-V3

I DeepSeek-V3 spiller Sigmoid-funktionen en afgørende rolle i beregningen af affinitetsresultater for ekspertrutning i blandingen af eksperter (MOE) arkitektur. I modsætning til traditionelle MOE-modeller, der ofte bruger SoftMax-funktionen til at normalisere affinitetsresultater, anvender DeepSeek-V3 sigmoidfunktionen. Denne ændring påvirker modellen på flere måder:

1. Normalisering og routing: Sigmoid -funktionen bruges til at beregne affinitetsresultaterne, som derefter normaliseres blandt alle valgte affinitetsresultater for at producere portværdierne. Denne tilgang muliggør en mere fleksibel og nuanceret routingmekanisme sammenlignet med Softmax, som undertiden kan føre til routing -sammenbrud, hvor visse eksperter er for foretrukne [4] [7].

2. Undgå routing -sammenbrud: Routing -sammenbrud opstår, når de fleste tokens dirigeres til en lille undergruppe af eksperter, hvilket fører til ineffektiv brug af beregningsressourcer. DeepSeek-V3 mindsker dette ved at bruge sigmoid port og introducere bias-udtryk, der dynamisk justeres under træning. Disse bias -udtryk hjælper med at afbalancere belastningen på tværs af eksperter uden at stole på hjælpetab, der kan have negativ indflydelse på modelpræstation [4] [9].

3. Bias-termer og dynamisk justering: Modellen indeholder biasbetingelser for hver ekspert, der føjes til affinitetsresultaterne, før de vælger Top-K-eksperterne. Disse bias -udtryk er dynamisk justeret baseret på belastningen af hver ekspert. Hvis en ekspert er overbelastet, falder dens bias -udtryk, og hvis den er underbelastet, øges biasbegrebet. Dette sikrer en afbalanceret fordeling af tokens på tværs af eksperter uden behov for yderligere tab [4] [8].

4. Komplementær sekvensmæssigt hjælpetab: Selvom DeepSeek-V3 primært undgår hjælpetab, inkluderer det et lille sekvensvis balancetab for at forhindre ekstreme tilfælde, hvor en enkelt sekvens stærkt favoriserer en lille undergruppe af eksperter. Dette tab fungerer som en beskyttelse uden væsentligt at påvirke den samlede træningsdynamik [4].

5. Node-begrænset routing: For at kontrollere kommunikationsomkostninger anvender DeepSeek-V3 node-begrænset routing, hvor hvert token sendes til højst M-knudepunkter baseret på de højeste affinitetsresultater. Denne strategi muliggør nær-fuld beregningskommunikationsoverlapning under træning, hvilket forbedrer effektiviteten [4].

Generelt muliggør brugen af sigmoidfunktionen i DeepSeek-V3 en mere fleksibel og effektiv routingmekanisme, hvilket bidrager til modellens evne til at afbalancere ekspertudnyttelse uden at ofre ydeevne.

Citater:
[Jeg
)
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
)
[6] https://neurips.cc/virtual/2024/poster/96407
)
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details

Hvordan påvirker Sigmoid-funktionen beregningen af ​​affinitetsscore i DeepSeek-V3

Hvordan påvirker Sigmoid-funktionen beregningen af affinitetsscore i DeepSeek-V3