在DeepSeek-V3中使用Sigmoid Gating提供了几个关键好处,尤其是在Experts(MOE)模型的背景下。这是详细的优势:
1。解耦路由器分数:与传统的软磁场幻灯片不同,它使所有专家的得分均标准化,Sigmoid Gating可以独立计算每个专家的分数。这将使路由器得分取消,这意味着一个专家的激活不会直接影响他人的激活。这可能会导致更加灵活和细微的路由决策,因为每个专家的分数不受其他分数的限制[5]。
2。避免过度自信:软掌控有时会导致在路由决策中过度自信,在该决策中,在以很高的可能性中选择单个专家,可能会忽略其他相关专家。 Sigmoid Gating通过允许高概率激活多个专家,从而促进整个模型中专家的利用率更加平衡[5],从而减轻了这种情况[5]。
3。保留专家贡献:通过使用Sigmoid Gating,可以更有效地保留每个专家的贡献。门控值乘以专家输出,是从原始亲和力得分得出的,而无需归一化。这样可以确保即使激活多个专家,也可以保持每个专家的贡献的完整性[3]。
4。路由的灵活性:Sigmoid Gating在路由决策方面提供了更大的灵活性,因为它并不能在所有专家中执行严格的归一化。在多个专家与处理给定输入令牌同等相关的情况下,这种灵活性可能特别有益,从而使模型能够更有效地利用多样化的知识来源[5]。
5。降低路由崩溃的风险:当模型始终偏向一小部分专家,有效地恢复到密集的模型时,就会发生路由崩溃。 Sigmoid Gating结合了其他负载平衡策略,例如动态偏见术语,通过鼓励在专家之间更加平衡的令牌分布而没有通过辅助损失来惩罚失衡[3],这有助于防止这种情况[3]。
总体而言,在DeepSeek-V3中使用Sigmoid Gating可以增强该模型管理专家专业化和知识共享有效共享的能力,从而有助于其强大的性能和计算效率。
引用:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaweays-from-deepseek-v3?lang=en
[2] https://ai.gopubby.com/deepseek-v3-explain-2-deepseekmoe-106cffcc56c1
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://www.linkedin.com/posts/niccolo-gentile-phd-02208160_there-is-is-crestand-quite-queite-quite-quite-quite-quite-a-a-a-activity-7289999951426699999493376-Q1OB
[5] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[6] https://metr.org/blog/2025-02-14-measuring-automated-kernel-engineering/
[7] https://arxiv.org/html/2412.19437v1
[8] https://stackoverflow.com/questions/56318636/what-are-the-the-benefits-of-using-a-sigmoid-function