Token Drop Prevention in Deepseek Training: Moe Architecture and Strategies

Vilka åtgärder vidtar Deepseek för att förhindra att token sjunker under träningen

Deepseek använder flera strategier för att förhindra att token släpps under träning, särskilt i dess blandning av experter (MOE) arkitektur. Här är de viktigaste åtgärderna:

1. Token-droppande strategi: DeepSeek använder en tokenmässig släppningsstrategi baserad på routing-sannolikheter, liknande konventionella MOE-modeller. Detta innebär att tokens tappas enligt deras poäng, vilket säkerställer att endast de minst viktiga tokens kasseras när tokenantalet överskrider en viss kapacitet. Kapaciteten beräknas annorlunda beroende på om fokus ligger på expert- eller enhetsdimensionen, vilket hjälper till att hantera hur tokens behandlas av olika experter eller enheter effektivt [1].

2. Token på enhetsnivå: Strategin fungerar främst på enhetsnivå där alla expertresultat sorteras och tokens med de lägsta sannolikheterna tappas. Detta säkerställer att varje enhet kan hantera sin belastning utan att överväldiga någon enskild expert samtidigt som den fortfarande upprätthåller den totala prestationseffektiviteten [1].

3. Garanterad tokenhållning: Deepseek har implementerat en specifik strategi för att säkerställa att cirka 10% av tokens från träningssekvenser aldrig kommer att släppas. Detta är avgörande för att upprätthålla integriteten i utbildningsdata och säkerställa att viktig information bevaras under hela träningsprocessen [2] [6].

4. Lastbalansering: I sin senaste version, Deepseek-V3, används en effektiv lastbalansstrategi som eliminerar behovet av att token släpper helt under träningen. Genom att dynamiskt justera expertbelastningar och använda ett multi-token-förutsägelsemål upprätthåller Deepseek-V3 en balanserad fördelning av tokens mellan experter och därmed förhindrar att dataförlust under träning [2].

Dessa åtgärder återspeglar Deepseeks engagemang för att optimera sina utbildningsprocesser samtidigt som dataförlust minimeras och maximera beräkningseffektiviteten.

Citeringar:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
]
[4] https://planetbanatt.net/articles/deepseek.html
]
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
]