在DeepSeek-V3中,通过解决专家之间的负载不平衡问题,对偏差术语和Sigmoid Gating的动态调整共同提高模型的效率和性能。这是这些组件如何相互补充的详细说明:
###偏见术语的动态调整
DeepSeek-V3为每个专家引入了一个偏差术语,在训练期间,该术语进行了动态调整以保持负载平衡。这种方法避免了辅助损失的需求,从而通过强迫将负载余额优先于最佳路由决策来对模型性能产生负面影响。在做出TOP-K路由决策之前,偏差项会添加到专家亲和力分数中,但不会影响门控值,这是从原始亲和力得分衍生而来的。这样可以确保专家在促进平衡路由时保持完整。
- 调整机制:如果专家被超载(接收代币超过平均值),则其偏置项将减少。相反,如果专家被负载,则其偏差术语将增加。这种调整有助于防止路由崩溃,在这种情况下,该模型可能会过度偏爱一些专家,从而导致计算效率低下并降低了专业化益处。
Sigmoid Gating
DeepSeek-V3用Sigmoid Gating取代了传统的软磁场,以进行专家路线。这一更改使每个专家都可以被选中,因为Sigmoid函数将任何实现数字映射到0到1之间的值。与SoftMax不同,与SoftMax不同,SoftMax可以在专家之间创造一个竞争环境(其中一个专家的收益是另一个专家的损失),Sigmoid Gating可以确保每个专家的得分与其他专家的得分相关,以降低强制强制的强制性利用。
- Sigmoid Gating的好处:这种方法可防止该模型过于偏爱一些专家,这可能导致其他专家的利用不足并降低模型性能。通过为每个专家提供公平的投篮,Sigmoid Gating促进了专家的更加平衡和多样化的利用,从而提高了模型的整体能力和效率。
###互补序列辅助损失
虽然主要的机制是无辅助的,但DeepSeek-V3还结合了互补序列的平衡损失。这种损失由很小的高参数控制,是防止极端情况的保障,如果单个序列可能会极大地支持一小部分专家。它确保在每个序列内平衡,而不会显着影响整体训练动态。
###动态偏见调整和sigmoid Gating如何相互补充
1。平衡的专家利用:偏见术语的动态调整可确保没有专家过于偏爱或不足的专家,从而在所有专家中保持平衡的负载。 Sigmoid Gating通过为每个专家提供独立的分数,减少竞争并确保每个专家都有贡献的机会来支持这一点。
2。有效的路由:通过基于专家利用率的动态调整偏差术语,该模型可以有效地将令牌分配给最合适的专家,而无需依赖可能损害性能的辅助损失。 Sigmoid Gating通过允许更细微的选择过程来促进这种有效的路由。
3。改进的模型性能:动态偏置调整和Sigmoid Gating的组合通过确保每个令牌都由最合适的专家组合来增强模型性能。这导致了专家之间更好的专业化和知识共享,从而提高了该模型有效处理各种任务的能力。
总而言之,DeepSeek-V3中偏见术语和Sigmoid Gating的动态调整共同起作用,以实现平衡的专家利用率,有效的路由和改进的模型性能,同时避免了传统辅助损失的缺点。
引用:
[1] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[2] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-picks-perfect-experts-activity-7287631625310412800-ncyv
[3] https://proceedings.neurips.cc/paper_files/paper/2024/file/1cded4f97cf5f5f01a284c574110b7e3b9b9b9-paper-conference.pdf
[4] https://www.linkedin.com/posts/josif-grabocka-7651b37_241219437v1-activity-7289784195130781696-DM_V
[5] https://huggingface.co/deepseek-ai/deepseek-v3/blob/main/configuration_deepseek.py.py
[6] https://ai.gopubby.com/deepseek-v3-explain-2-deepseekmoe-106cffcc56c1
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.youtube.com/watch?v=8v2l6sjecw4
[9] https://rxiv.org/ai/
[10] https://fireworks.ai/blog/deepseek-model-architecture