DeepSeek-V3中的Sigmoid Gating在防止路由崩溃方面起着至关重要的作用,这是专家(MOE)模型中的一个常见问题,其中一些专家始终受到其他专家的青睐,从而导致模型资源的效率低下培训和利用率。这是Sigmoid Gating的帮助:
##传统的软马克斯门控与sigmoid Gating
传统的MOE模型经常使用SoftMax门控,这可能会导致“获奖者”场景。将SoftMax输出标准化以确保其总和为1,这可能会导致极端概率几乎完全选择一个专家,尤其是在其初始权重稍好的情况下。这可能导致其他专家未被充分利用和训练,从而导致路线崩溃。
相比之下,Sigmoid Gating独立地分配了每个专家的分数在0到1之间,而没有专家的归一化。这意味着多位专家可以同时获得高分,从而可以在专家之间更加平衡令牌。 Sigmoid Gating不会在专家之间实施严格的竞争,从而通过确保每个专家都有公平的贡献机会来减少路由崩溃的可能性[1] [4] [6]。
##动态偏见调整
DeepSeek-V3通过为每个专家引入动态偏差术语,进一步增强了Sigmoid Gating。根据每个专家的负担,在培训期间调整了这些偏见。如果专家被超载,则其偏见会减少以阻止其进一步的路线,而贫困专家的偏见增加了以吸引更多的令牌。这种动态调整有助于保持所有专家的平衡负载,从而阻止任何单一专家主导路由决策,从而防止路由崩溃[2] [4] [6]。
##分层门
DeepSeek-V3还采用了层次结构门控,该层次在多个层面上应用稀疏性约束。最初,进行了粗略的专家选择,然后在选定组中进行更细的过滤。这种层次结构方法可确保为每个令牌激活各种专家,从而进一步降低了路由崩溃的风险,通过防止过度专业化并鼓励对不同领域进行概括[1] [6]。
##节点限制路由
此外,DeepSeek-V3使用节点限制的路由,这限制了每个令牌可以与之通信的节点数量。这种策略最大程度地减少了跨节点通信开销,确保了有效的培训和推理,同时保持平衡的专家利用率[6]。
总而言之,DeepSeek-V3中的Sigmoid Gating有助于防止路由崩溃,通过允许多个专家同时激活,而无需强迫他们之间的严格竞争。动态偏见调整和分层门控进一步确保了每个专家的有效利用,保持平衡的负载并阻止任何专家主导路由决策。
引用:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-picks-perfect-experts-actervity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-impreved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-fllms