DeepSeek采用了几种策略来防止在培训期间掉落令牌下降,尤其是在其混合体(MOE)体系结构中。这是关键措施:
1。标记策略:DeepSeek采用了基于路由概率的令牌掉落方法,类似于传统的MOE模型。这意味着令牌根据其分数删除,以确保在令牌计数超过一定能力时只有最小重要的令牌被丢弃。该容量的计算不同,具体取决于专家或设备维度的重点,这有助于管理代币的方法是由不同的专家或设备有效处理的[1]。
2。设备级令牌下降:该策略主要在所有专家分数分类的设备级别上运行,并删除具有最低概率的令牌。这样可以确保每台设备可以管理其负载而不会淹没任何专家,同时仍保持整体性能效率[1]。
3.保证的令牌保留率:DeepSeek已经实施了一项特定的策略,以确保训练序列中约有10%的令牌将永远不会被删除。这对于维持培训数据的完整性并确保在整个培训过程中保留重要信息[2] [6]至关重要。
4。负载平衡:在其最新版本的DeepSeek-V3中,采用了有效的负载平衡策略,这消除了在培训期间完全掉落的令牌。通过动态调整专家负载并利用多句话预测目标,DeepSeek-V3保持了在专家之间的代币平衡分布,从而阻止了培训期间的任何数据损失[2]。
这些措施反映了DeepSeek致力于优化其培训过程的承诺,同时最大程度地减少数据丢失并最大化计算效率。
引用:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-why-why-is-crypto-crypto-down-down-fake-deepseek-deepseek-tokens-tokens-tokens-tokens-affect-- affect-affect-affect-the-the-the-Traders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-and-down-down-fake-deepseek-deepseek-tokens-tokens-affect- affect-the the千千万英镑/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716