要了解Sigmoid Gating如何与DeepSeek-V3中的多头潜在注意力(MLA)结构相互作用,让我们分解组件及其在模型中的作用。
##多头潜在注意力(MLA)
** MLA是DeepSeek-V3的关键组成部分,旨在优化基于变压器的模型中的注意机制。与传统的多头注意力不同,MLA使用低级别的关节压缩来进行注意力键和值。在进入注意机制之前,这种压缩可以降低查询(q),键(k)和值(v)向量的维度。例如,如果输入的形状为(序列长度 - 2000),则MLA可能会将Q,K和V向量降低为(序列长度â100)的形状。这种减少可显着最大程度地减少推理过程中的键值(KV)缓存,从而导致加工时间更快而无需牺牲性能[5] [9]。
DeepSeek-V3中的Sigmoid Gating
在DeepSeek-V3的背景下,Sigmoid Gating与Experts(MOE)框架的混合物结合使用。 MOE框架将大型神经网络划分为称为“专家”的专门子网。对于每个输入,仅激活这些专家的一个子集。 Sigmoid Gating应用于决定专家激活的路由机制。
###与MLA的互动
尽管MLA主要专注于优化注意力过程,但Sigmoid Gating在MOE框架中起着作用,MOE框架是DeepSeek-V3的单独但互补的组成部分。 MOE框架使用Sigmoid Gating来管理如何将令牌路由到不同专家。与传统的SoftMax门控可能导致某些专家比其他专家相比的极端情况不同,Sigmoid Gating有助于维持在专家之间的代币分布更加平衡。这种平衡对于防止路由崩溃至关重要,该模型可能会像密集的模型一样恢复,从而失去了MOE架构的效率优势[5]。
###动态偏见调整
DeepSeek-V3引入了动态偏见调整,以确保专家之间的负载平衡。在做出路由决策之前,将偏差条款添加到专家亲和力分数中。这些偏见在训练过程中会动态调整:如果专家过载,其偏见会减少,如果偏差不足,则其偏见会增加。该机制可确保载荷保持平衡而不会依赖辅助损失功能,从而对模型性能产生负面影响[5]。
总而言之,尽管MLA优化了更快推理的注意力机制,但MOE框架中的Sigmoid Gating有助于管理代币与专家的路由,从而确保对计算资源的有效且平衡的利用率。这种组合提高了DeepSeek-V3的整体性能和效率。
引用:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/en/blog/technical-architecture-of-deepseek-v3-explained/
[5] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_how_deepseek_has_has_impravy/
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architecter)
[8] https://ai.gopubby.com/deepseek-v3-explain-2-deepseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853fefac7050