DeepSeek-V3：在专家体系结构混合物中使用Sigmoid功能增强专家路由

Sigmoid函数如何影响DeepSeek-V3中亲和力得分计算

在DeepSeek-V3中，Sigmoid功能在计算专家组合(MOE)体系结构的专家路由的亲和力分数中起着至关重要的作用。与经常使用SoftMax函数正常值分数标准化的传统MOE模型不同，DeepSeek-V3采用了Sigmoid函数。这种变化以多种方式影响模型：

1。归一化和路由：Sigmoid函数用于计算亲和力得分，然后在所有选定的亲和力分数中对其进行标准化以产生门控值。与SoftMax相比，这种方法可以具有更灵活，更细微的路由机制，这有时会导致某些专家过于偏爱的路由崩溃[4] [7]。

2。避免路由崩溃：当大多数令牌被路由到一小部分专家时，会导致路由崩溃，从而导致计算资源的使用效率低下。 DeepSeek-V3通过使用Sigmoid Gating和引入训练过程中动态调整的偏差术语来缓解这种情况。这些偏见术语有助于平衡专家之间的负载，而不会依赖可能对模型性能产生负面影响的辅助损失[4] [9]。

3。偏差术语和动态调整：该模型包含了每个专家的偏差术语，在选择顶级专家之前，这些术语将添加到亲和力分数中。这些偏差项会根据每个专家的负载进行动态调整。如果专家被超载，其偏差项会减少，并且如果其不足，则偏差项会增加。这样可以确保在不需要额外损失的情况下在专家之间平衡令牌的平衡分布[4] [8]。

4。互补序列的辅助损失：尽管DeepSeek-V3主要避免辅助损失，但它包括小序列的平衡损失，以防止极端情况下，单个序列极大地支持一小部分专家。这种损失是一种保障，而没有显着影响整体训练动态[4]。

5。节点受限的路由：为了控制通信成本，DeepSeek-V3采用节点受限的路由，在该路由下，每个令牌都基于最高亲和力分数将每个令牌发送到大多数节点。该策略使培训期间近乎满足的计算通信重叠，从而提高效率[4]。

总体而言，在DeepSeek-V3中使用Sigmoid功能可以具有更灵活，更有效的路由机制，从而有助于模型在不牺牲性能的情况下平衡专家利用率的能力。

引用：
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-activity-729147904792657920-
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaweays-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-entput.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explain-3-auxilary-loss-free-load-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559＆sst = wr_hit＆sod＆sod = desc&sop = and＆page = 147＆device = pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details