Token Dossing Prevention in Deepseek Training: MOE Architecture and Strategies

Quelles mesures prennent Deepseek pour empêcher la baisse des jetons pendant l'entraînement

Deepseek utilise plusieurs stratégies pour prévenir la baisse des jetons pendant la formation, en particulier dans son architecture de mélange de réseaux (MOE). Voici les mesures clés:

1. Stratégie de token-bropping: Deepseek utilise une approche de baisse des jetons basée sur des probabilités de routage, similaires aux modèles MOE conventionnels. Cela signifie que les jetons sont abandonnés en fonction de leurs scores, garantissant que seuls les jetons les moins importants sont jetés lorsque le nombre de jetons dépasse une certaine capacité. La capacité est calculée différemment selon que l'accent est mis sur la dimension experte ou l'appareil, ce qui aide à gérer la façon dont les jetons sont traités efficacement par différents experts ou appareils [1].

2. Dossin de jetons au niveau de l'appareil: la stratégie fonctionne principalement au niveau de l'appareil où tous les scores d'experts sont triés, et les jetons avec les probabilités les plus basses sont supprimés. Cela garantit que chaque appareil peut gérer sa charge sans écraser d'un seul expert tout en conservant l'efficacité globale des performances [1].

3. Rétention de jetons garantis: Deepseek a mis en œuvre une stratégie spécifique pour s'assurer qu'environ 10% des jetons des séquences de formation ne seront jamais abandonnés. Ceci est crucial pour maintenir l'intégrité des données de formation et garantir que des informations importantes sont conservées tout au long du processus de formation [2] [6].

4. Équilibrage de chargement: Dans sa dernière version, Deepseek-V3, une stratégie d'équilibrage de charge efficace est utilisée, ce qui élimine le besoin de baisse de jetons pendant la formation. En ajustant dynamiquement les charges d'experts et en utilisant un objectif de prédiction multi-token, Deepseek-V3 maintient une distribution équilibrée de jetons entre les experts, empêchant ainsi toute perte de données pendant la formation [2].

Ces mesures reflètent l'engagement de Deepseek à optimiser ses processus de formation tout en minimisant la perte de données et en maximisant l'efficacité informatique.

Citations:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-ging-down-fake-eepseek-tokens-affected-thles-of-fraders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-iscrypto-ging-down-fake-eepseek-tokens-affecct-thlees-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-pices/1097716