Token Droping Prevention in Deepseek Training: MOE -architectuur en strategieën

Welke maatregelen neemt Deepseek om te voorkomen dat token tijdens de training daalt

DeepSeek maakt gebruik van verschillende strategieën om te voorkomen dat token tijdens de training daalt, met name in de architectuur van het mengsel (MOE). Hier zijn de belangrijkste maatregelen:

1. Token-dropping strategie: Deepseek maakt gebruik van een token-verstandige drop-aanpak op basis van routeringskansen, vergelijkbaar met conventionele MOE-modellen. Dit betekent dat tokens worden gedropt volgens hun scores, waardoor alleen de minst belangrijke tokens worden weggegooid wanneer het aantal token een bepaalde capaciteit overschrijdt. De capaciteit wordt anders berekend, afhankelijk van of de focus ligt op de expert- of apparaatdimensie, wat helpt bij het beheren van hoe tokens worden verwerkt door verschillende experts of apparaten effectief [1].

2. Druppelen op apparaatniveau: de strategie werkt voornamelijk op het apparaatniveau waar alle deskundige scores worden gesorteerd en tokens met de laagste kansen worden gedropt. Dit zorgt ervoor dat elk apparaat zijn belasting kan beheren zonder een enkele expert te overweldigen met behoud van de algehele prestatie -efficiëntie [1].

3. Gegarandeerde tokenretentie: Deepseek heeft een specifieke strategie geïmplementeerd om ervoor te zorgen dat ongeveer 10% van de tokens van trainingssequenties nooit zal worden gedropt. Dit is cruciaal voor het handhaven van de integriteit van de trainingsgegevens en ervoor te zorgen dat belangrijke informatie gedurende het trainingsproces wordt bewaard [2] [6].

4. Load Balancing: In zijn nieuwste versie, Deepseek-V3, wordt een effectieve strategie voor load balancing gebruikt die de noodzaak elimineert dat token tijdens de training helemaal daalt. Door deskundige belastingen dynamisch aan te passen en een multi-token voorspellingsdoelstelling te gebruiken, handhaaft DeepSeek-V3 een evenwichtige verdeling van tokens over experts, waardoor het verlies van gegevens tijdens de training wordt voorkomen [2].

Deze maatregelen weerspiegelen de inzet van DeepSeek om zijn trainingsprocessen te optimaliseren, terwijl gegevensverlies worden geminimaliseerd en de rekenefficiëntie maximaliseert.

Citaten:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:C7148CFCE094B:0-Why-Is-Crypto-down-Deepseek-tokens-affect-duizend-of-traaders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-ing-fake-deepseek-tokens-affect-duizenden-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716