Sigmoid-grindning i Deepseek-V3: Förhindra routingkollaps i blandning av experter modeller

Hur hjälper Sigmoid Gating för att förhindra routingkollaps i Deepseek-V3

Sigmoid-grindning i Deepseek-V3 spelar en avgörande roll för att förhindra routingskollaps, en vanlig fråga i blandning av experter (MOE) -modeller där ett fåtal experter konsekvent gynnas framför andra, vilket leder till ineffektiv utbildning och användning av modellresurser. Så här hjälper Sigmoid Gating:

Traditionell SoftMax Gating vs. Sigmoid Gating

Traditionella MOE-modeller använder ofta softmax-grindning, vilket kan leda till ett "vinnare-takes-all" -scenario. Softmax -utgångar normaliseras för att säkerställa att de summerar till 1, vilket kan resultera i extrema sannolikheter där en expert väljs nästan uteslutande, särskilt om dess initiala vikter är något bättre. Detta kan leda till att andra experter underutnyttjas och undertränas, vilket leder till routingskollaps.

Däremot tilldelar Sigmoid Gating varje expert en poäng mellan 0 och 1 oberoende, utan normalisering mellan experter. Detta innebär att flera experter kan ha höga poäng samtidigt, vilket möjliggör en mer balanserad distribution av tokens mellan experter. Sigmoid -grindning verkställer inte en strikt konkurrens bland experter, vilket minskar sannolikheten för att dirigera kollaps genom att säkerställa att varje expert får en rättvis chans att bidra med [1] [4] [6].

Dynamisk förspänningsjustering

Deepseek-V3 förbättrar ytterligare sigmoid-grindning genom att införa dynamiska förspänningstermer för varje expert. Dessa fördomar justeras under träning baserat på belastningen för varje expert. Om en expert är överbelastad minskas dess förspänning för att avskräcka ytterligare dirigering till den, medan underbelastade experter har sina fördomar ökat för att locka fler symboler. Denna dynamiska justering hjälper till att upprätthålla en balanserad belastning över alla experter, förhindra att en enda expert dominerar routingbesluten och därmed förhindrar routingkollaps [2] [4] [6].

Hierarkisk grindning

Deepseek-V3 använder också hierarkisk grindning, vilket tillämpar sparsitetsbegränsningar på flera nivåer. Ursprungligen görs ett grovt urval av experter, följt av finare filtrering inom utvalda grupper. Detta hierarkiska tillvägagångssätt säkerställer att en mångfaldig uppsättning experter aktiveras för varje symbol, vilket ytterligare minskar risken för att dirigera kollaps genom att förhindra överspecialisering och uppmuntra generalisering över olika domäner [1] [6].

Nodbegränsad routing

Dessutom använder Deepseek-V3 nodbegränsad routing, vilket begränsar antalet noder som varje token kan kommunicera med. Denna strategi minimerar kommunikationskommunikation över krossen och säkerställer effektiv utbildning och slutsats samtidigt som man bibehåller balanserat expertutnyttjande [6].

Sammanfattningsvis hjälper Sigmoid-grindningar i Deepseek-V3 att förhindra att routing kollapsar genom att låta flera experter aktiveras samtidigt utan att tvinga en strikt konkurrens bland dem. Den dynamiska förspänningsjusteringen och hierarkiska grindningen säkerställer vidare att varje expert används effektivt, upprätthåller en balanserad belastning och förhindrar att någon expert dominerar routingbesluten.

Citeringar:
]
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
]