Token Dropping Prevention in DeepSeek Training: MOE Architecture and Strategies

Hvilke tiltak tar DeepSeek for å forhindre at token faller under trening

DeepSeek bruker flere strategier for å forhindre at token faller under trening, spesielt i sin blandingsblanding-av-ekspert (MOE) arkitektur. Her er de viktigste tiltakene:

1. Token-dropping Strategi: DeepSeek bruker en token-messig slipp-tilnærming basert på rutingssannsynligheter, lik konvensjonelle MOE-modeller. Dette betyr at symboler blir droppet i henhold til deres score, og sikrer at bare de minst viktige symbolene blir kastet når tokentallet overstiger en viss kapasitet. Kapasiteten beregnes annerledes avhengig av om fokuset er på ekspert- eller enhetsdimensjonen, noe som hjelper til med å håndtere hvordan symboler behandles av forskjellige eksperter eller enheter effektivt [1].

2. Dropping på enhetsnivå: Strategien fungerer hovedsakelig på enhetsnivå der alle ekspertresultater er sortert, og symboler med de laveste sannsynlighetene blir droppet. Dette sikrer at hver enhet kan administrere sin belastning uten å overvelde noen enkelt ekspert, mens den fremdeles opprettholder den generelle ytelseseffektiviteten [1].

3. Garantert Token -oppbevaring: DeepSeek har implementert en spesifikk strategi for å sikre at omtrent 10% av symbolene fra treningssekvenser aldri vil bli droppet. Dette er avgjørende for å opprettholde integriteten til treningsdataene og sikre at viktig informasjon blir bevart gjennom treningsprosessen [2] [6].

4. Lastbalansering: I sin nyeste versjon, DeepSeek-V3, brukes en effektiv belastningsbalanseringsstrategi som eliminerer behovet for at token faller helt under trening. Ved å justere ekspertbelastninger dynamisk og bruke et flertoken prediksjonsmål, opprettholder DeepSeek-V3 en balansert fordeling av symboler på tvers av eksperter, og forhindrer dermed tap av data under trening [2].

Disse tiltakene gjenspeiler DeepSeeks forpliktelse til å optimalisere treningsprosessene mens de minimerer tap av data og maksimerer beregningseffektiviteten.

Sitasjoner:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-going-down-fake-deepseek-tokens-affect-ousutions-of-traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-going-down-fake-deepseek-tokens-affect-ousen-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716