DeepSeek-V3的专家选择过程旨在确保在其专家中均衡任务的平衡分配,以利用专家(MOE)体系结构的混合。这个过程对于通过动态激活每个输入令牌的最相关专家来实现技能的完美融合至关重要。
###专家(MOE)体系结构的混合物
DeepSeek-V3采用了MOE架构,其中涉及将模型分为多个“专家”,每个模型都专门从事不同的任务或知识领域。该模型有1位共享专家和256名路由专家,根据其相关性,将8位路由专家选择为每个输入令牌的活动[1]。这种方法允许该模型通过仅激活其总参数的一小部分(在6710亿个任务中的370亿次)[6] [7],从而更有效地处理输入。
###专家选择过程
DeepSeek-V3专家的选择是基于亲和力评分,该分数被计算为输入令牌嵌入的点产物和特定的专家的质心。此分数决定了专家对输入令牌的需求的匹配程度[1]。该模型使用TOP-K选择策略,其中选择了顶级专家进行处理。为了避免将太多的代币发送给一些专家,DeepSeek-V3采用了无辅助负载平衡策略。
###无辅助负载平衡
该策略涉及在路由过程中增加亲和力得分的偏见。根据批处理中每个专家的使用,对偏差进行动态调整。如果专家被超载,其偏见会减少以阻止进一步的任务,而未充分利用的专家的偏见则增加以鼓励更多使用[1] [3]。这种方法可确保工作负载均匀分布在专家之间,而无需其他损失功能,这有时会损害模型性能[4]。
###专家选择过程的好处
DeepSeek-V3中的专家选择过程提供了几个好处:
- 效率:通过仅激活相关专家,该模型降低了计算开销,从而使其更具成本效益和节能[6] [9]。
- 专业化:每个专家都可以专门研究特定的任务或知识领域,从而更细微,准确地处理各种投入[1] [9]。
- 可伸缩性:MOE体系结构允许更大的模型而无需过多的计算成本,从而可以开发更复杂和有能力的AI系统[4] [6]。
总体而言,DeepSeek-V3的专家选择过程通过将任务分配给专业专家,优化效率并提高模型性能来确保技能的完美融合。
引用:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://www.herohunt.ai/blog/deepseeks-ai-model-revolution-global recruitment
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what what what-main-benefit-mixture-mixture-experts-moe-models-models-qi-he-nkgbe
[5] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepseek_v3_is_it_it_it_truly_better_better_than/
[6] https://alliedinsight.com/blog/deepseeks-technologicy-innovations-a-deep-dive-into-into-the-v3-model/
[7] https://huggingface.co/deepseek-ai/deepseek-v3
[8] https://mindflow.io/blog/deepseek-vs-vs-openai-what-is-deepseek-what-what-do-does-does-does-do
[9] https://tldv.io/blog/what-is-deepseek/
[10] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-models-from-v3-to-rom-v3-to-ry-beyond