Deepseek-V3: Förbättrande expertruttning med sigmoidfunktion i blandning av experterarkitektur

Hur påverkar sigmoidfunktionen affinitetsresultatberäkningen i Deepseek-V3

I Deepseek-V3 spelar sigmoidfunktionen en avgörande roll i beräkningen av affinitetsresultat för expertruttning i blandningen av experter (MOE) arkitektur. Till skillnad från traditionella MOE-modeller som ofta använder softmax-funktionen för att normalisera affinitetsresultat, använder Deepseek-V3 sigmoidfunktionen. Denna förändring påverkar modellen på flera sätt:

1. Normalisering och routing: Sigmoid -funktionen används för att beräkna affinitetsresultaten, som sedan normaliseras bland alla utvalda affinitetsresultat för att producera grindvärdena. Detta tillvägagångssätt möjliggör en mer flexibel och nyanserad routingmekanism jämfört med softmax, vilket ibland kan leda till routingskollaps där vissa experter är alltför gynnade [4] [7].

2. Undvik att routing kollaps: Routingskollaps inträffar när de flesta tokens dirigeras till en liten delmängd av experter, vilket leder till ineffektiv användning av beräkningsresurser. Deepseek-V3 mildrar detta genom att använda Sigmoid-grindning och introducera förspänningstermer som dynamiskt justeras under träningen. Dessa förspänningstermer hjälper till att balansera belastningen mellan experter utan att förlita sig på hjälpförluster som kan påverka modellprestanda negativt [4] [9].

3. Bias-termer och dynamisk justering: Modellen innehåller förspänningsvillkor för varje expert, som läggs till i affinitetsresultaten innan du väljer Top-K-experterna. Dessa förspänningstermer justeras dynamiskt baserat på belastningen för varje expert. Om en expert är överbelastad minskar dess förspänningstid, och om den är underbelastad ökar förspänningstermen. Detta säkerställer en balanserad fördelning av tokens mellan experter utan behov av ytterligare förluster [4] [8].

4. Kompletterande sekvensmässigt hjälpförlust: Även om Deepseek-V3 främst undviker hjälpförluster, inkluderar den en liten sekvensmässigt balansförlust för att förhindra extrema fall där en enda sekvens gynnar en liten delmängd av experter. Denna förlust fungerar som ett skydd utan att påverka den övergripande träningsdynamiken väsentligt [4].

5. Nodbegränsad routing: För att kontrollera kommunikationskostnader använder Deepseek-V3 nodbegränsad routing, där varje token skickas till högst M-noder baserat på de högsta affinitetsresultaten. Denna strategi möjliggör nästan full beräkningskommunikationsöverlappning under träning, vilket förbättrar effektiviteten [4].

Sammantaget möjliggör användningen av sigmoidfunktionen i Deepseek-V3 en mer flexibel och effektiv routingmekanism, vilket bidrar till modellens förmåga att balansera expertutnyttjande utan att offra prestanda.

Citeringar:
]
]
]
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
]
[6] https://neurips.cc/virtual/2024/poster/96407
]
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details