在DeepSeek-V3中,亲和力分数在其专家选择过程中起着至关重要的作用。该体系结构旨在通过基于输入令牌动态激活专家的子集来有效地处理大型语言建模任务。
###亲和分数计算
亲和力评分计算为输入令牌嵌入和特定专家的质心的点产物。可以将质心视为每个专家的代表向量,这可能源自专家过程的平均激活或输入。该点产品可以衡量令牌与每个可用专家的专业知识的紧密结合。
###专家选择过程
1。TOP-K路由:对于每个输入令牌,DeepSeek-V3选择具有最高亲和力得分的前8名专家。此过程称为TOP-K路由,其中k在这种情况下为8 [1] [7]。
2。偏差调整:为防止路由崩溃,在将太多令牌路由到同一专家的情况下,DeepSeek-V3引入了动态偏置调整。每个专家都有一个偏差项$$ b_i $$,在路由过程中添加到其亲和力分数中。如果专家过载,其偏见会减少,如果未被充分利用,则其偏见会增加。这种调整有助于在不使用显式辅助损失的情况下维持所有专家的平衡工作量[1] [3]。
3.门控机制:门控机制计算每个令牌的分数,并根据这些分数选择最相关的路由专家。这样可以确保模型仅通过激活每个令牌的必要专家来有效地分配计算资源[3]。
###亲和力得分的好处
- 效率:通过基于亲和力得分的专家,DeepSeek-V3通过仅激活每个令牌的模型总参数来降低计算成本。这会导致更有效的推理和训练过程[4] [8]。
- 专业化:亲和力得分可以在专家之间更好地专业化。每个专家都可以专注于特定的模式或任务,从而增强模型的总体代表力和处理多种投入的能力[1] [2]。
- 稳定性:动态偏置调整可确保没有专家过载,从而在训练和推理过程中保持稳定性。这样可以防止该模型由于过载而导致令牌,这在早期版本中是一个问题[2] [3]。
总而言之,DeepSeek-V3中的亲和力得分对于动态选择每个输入令牌的最相关的专家至关重要,从而确保在保持模型稳定性的同时确保高效且专业的处理。
引用:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what what what-main-benefit-mixture-mixture-experts-moe-models-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-cost-cost statton-juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-rastem--ras----are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamatily-selecting-number-expert-moe-models-deepseek-deepseek-rosi%C4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-rom-v3-to-po--r1-and-beyond