Hvilke foranstaltninger tager Deepseek for at forhindre, at token falder under træning

DeepSeek anvender flere strategier for at forhindre, at token falder under træning, især i dens blanding af eksperter (MOE) arkitektur. Her er de vigtigste mål:

1. Token-dropping-strategi: Deepseek bruger en tokenvis droppende tilgang baseret på routingsandsynligheder, svarende til konventionelle MOE-modeller. Dette betyder, at tokens falder i henhold til deres score, hvilket sikrer, at kun de mindst vigtige tokens kasseres, når token -antallet overstiger en bestemt kapacitet. Kapaciteten beregnes forskelligt afhængigt af om fokus er på ekspert- eller enhedsdimensionen, hvilket hjælper med at styre, hvordan tokens behandles af forskellige eksperter eller enheder effektivt [1].

2. enhedsniveau-token-fald: Strategien fungerer primært på enhedsniveau, hvor alle ekspertresultater sorteres, og tokens med de laveste sandsynligheder falder. Dette sikrer, at hver enhed kan styre sin belastning uden at overvælde nogen enkelt ekspert, mens den stadig opretholder den samlede præstationseffektivitet [1].

3. Garanteret tokenopbevaring: Deepseek har implementeret en specifik strategi for at sikre, at ca. 10% af tokens fra træningssekvenser aldrig vil blive droppet. Dette er afgørende for at opretholde integriteten af træningsdataene og sikre, at vigtige oplysninger bevares i hele træningsprocessen [2] [6].

4. belastningsbalancering: I sin seneste version, DeepSeek-V3, anvendes en effektiv belastningsbalanceringsstrategi, der eliminerer behovet for, at token falder helt under træning. Ved dynamisk at justere ekspertbelastninger og bruge et multi-token forudsigelsesmål opretholder DeepSeek-V3 en afbalanceret fordeling af tokens på tværs af eksperter og forhindrer således tab af data under træning [2].

Disse foranstaltninger afspejler Deepseeks forpligtelse til at optimere sine træningsprocesser, samtidig med at de minimerer datatab og maksimerer beregningseffektiviteten.

Citater:
[1] https://github.com/deepseek-i/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
)
[4] https://planetbanatt.net/articles/deepseek.html
)
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-fenai-to-reduce-token-prices/1097716