比较DeepSeek-V2和DeepSeek-V3中的专家路由机制

DeepSeek-V2和DeepSeek-V3中的专家路由机制之间的主要区别是什么

DeepSeek-V2和DeepSeek-V3的专家路由机制之间的主要区别可以总结如下：

DeepSeek-V2专家路由

- 设备受限的路由机制：DeepSeek-V2采用设备限制的路由机制来在多个设备上分发专家。这种方法可确保每个令牌的目标专家分布在有限数量的设备上，通常从这些设备中选择顶级专家。该策略有助于管理沟通开销，并确保有效的并行处理[1] [5]。

- 负载余额的辅助损失：DeepSeek-V2引入了三种类型的辅助损失专家级，设备级别和通信级别，以在培训期间保持负载余额。这些损失有助于防止路由崩溃，以确保没有任何专家过于利用，而其他专家仍未得到充分利用[1] [6]。

- 专家和激活的数量：DeepSeek-V2拥有160名专家以及两名共享专家，在推理期间只有6个专家。这种选择性激活大大减少了活动参数的数量，从而使模型更有效[5]。

DeepSeek-V3专家路由

- 提高专家专业化：DeepSeek-V3通过将每层路由专家的数量增加60％，从160增加到256。这一增加增强了模型的知识和记忆能力[2]。

- 共享专家：DeepSeek-V3保留了始终被激活的共享专家的概念。每个进发纸网络(FFN)层都有一个共享的专家，并且在三层中都有所有专家都被激活，从而提高了模型在上下文中捕获常识的能力[2] [4]。

- 代币到专家的亲和力：将令牌分配给专家是基于嵌入空间中的令牌到专家的亲和力。但是，DeepSeek-V3面临与路由崩溃有关的挑战，在该挑战中，令牌可能会始终将其路由到同一专家，从而阻碍其他专家的培训[2]。

- 激进的MOE策略：DeepSeek-V3采用了更具侵略性的MOE策略，利用FP8精度进行训练，从而可以进行更有效的计算和扩展。这种方法使模型能够有效利用稀疏激活，从而优化推理期间参数的使用[2] [4]。

总而言之，尽管这两种模型都使用MOE体系结构进行有效的路由和稀疏激活，但DeepSeek-V3通过增加的专家专业化，更具侵略性的MOE策略以及对共享专家配置的调整来增强这种方法。 DeepSeek-V2通过设备限制的路由和负载平衡辅助损失侧重于经济训练和有效的推断。

引用：
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-felficity
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA