DeepSeek-V3: Forbedrende ekspertruting med sigmoidfunksjon i blanding av eksperter arkitektur

Hvordan påvirker Sigmoid-funksjonen Affinitetsscoreberegningen i DeepSeek-V3

I DeepSeek-V3 spiller Sigmoid-funksjonen en avgjørende rolle i beregningen av affinitetspoeng for ekspertruting i blandingen av eksperter (MOE) arkitektur. I motsetning til tradisjonelle MOE-modeller som ofte bruker SoftMax-funksjonen for å normalisere affinitetspoeng, benytter DeepSeek-V3 Sigmoid-funksjonen. Denne endringen påvirker modellen på flere måter:

1. Normalisering og ruting: Sigmoid -funksjonen brukes til å beregne affinitetspoengene, som deretter blir normalisert blant alle utvalgte affinitetspoeng for å produsere portverdiene. Denne tilnærmingen gir mulighet for en mer fleksibel og nyansert rutingmekanisme sammenlignet med SoftMax, noe som noen ganger kan føre til rutingkollaps der visse eksperter er altfor foretrukket [4] [7].

2. Unngå rutingskollaps: Rutingskollaps oppstår når de fleste symboler blir dirigert til en liten undergruppe av eksperter, noe som fører til ineffektiv bruk av beregningsressurser. DeepSeek-V3 demper dette ved å bruke sigmoid portering og introdusere skjevheter som dynamisk tilpasser seg under trening. Disse skjevhetsbetingelsene hjelper til med å balansere belastningen på tvers av eksperter uten å stole på hjelpstap som kan påvirke modellytelsen på negativt [4] [9].

3. Forspenningsbetingelser og dynamisk justering: Modellen inneholder skjevhetsbetingelser for hver ekspert, som legges til affinitetspoengene før du velger topp-K-ekspertene. Disse skjevhetene er dynamisk justert basert på belastningen til hver ekspert. Hvis en ekspert er overbelastet, reduseres forspenningstiden, og hvis den er underbelastet, øker skjevtiden. Dette sikrer en balansert fordeling av symboler på tvers av eksperter uten behov for ytterligere tap [4] [8].

4. Komplementær sekvensmessig hjelpstap: Selv om DeepSeek-V3 først og fremst unngår hjelpstap, inkluderer det et lite sekvensmessig balansetap for å forhindre ekstreme tilfeller der en enkelt sekvens sterkt favoriserer en liten undergruppe av eksperter. Dette tapet fungerer som en beskyttelse uten å påvirke den generelle treningsdynamikken betydelig [4].

5. Knutebegrenset ruting: For å kontrollere kommunikasjonskostnader, bruker DeepSeek-V3 node-begrenset ruting, der hvert token blir sendt til de fleste M-noder basert på de høyeste affinitetspoengene. Denne strategien muliggjør overlapping av nærmest beregningskommunikasjon under trening, og forbedrer effektiviteten [4].

Totalt sett muliggjør bruk av sigmoid-funksjonen i DeepSeek-V3 en mer fleksibel og effektiv rutingmekanisme, og bidrar til modellens evne til å balansere ekspertutnyttelse uten å ofre ytelse.

Sitasjoner:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-activity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiiBhwxeqmf1/four-unique-takeaways-from-depseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-kypoint-detection-with-output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explained-3-auxiliary-loss-free-Load-Balancing-4Beeb734Ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&Sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details