DeepSeek-V2とDeepSeek-V3の専門家ルーティングメカニズムを比較します

DeepSeek-V2とDeepSeek-V3の専門家ルーティングメカニズムの主な違いは何ですか

DeepSeek-V2とDeepSeek-V3の専門家ルーティングメカニズムの主な違いは、次のように要約できます。

deepseek-v2エキスパートルーティング

- デバイス制限ルーティングメカニズム：DeepSeek-V2は、デバイス制限されたルーティングメカニズムを採用して、複数のデバイスに専門家を配布します。このアプローチにより、各トークンのターゲット専門家が限られた数のデバイスに広がることが保証され、通常、これらのデバイスからトップKの専門家を選択します。この戦略は、通信のオーバーヘッドを管理し、効率的な並列処理を保証するのに役立ちます[1] [5]。

- 負荷バランスの補助損失：DeepSeek-V2は、トレーニング中に負荷バランスを維持するために、3種類の補助損失の専門家レベル、デバイスレベル、および通信レベルを導入します。これらの損失は、単一の専門家が過度に利用されないようにし、他の人が十分に活用されていないことを保証することにより、ルーティングの崩壊を防ぐのに役立ちます[1] [6]。

- 専門家と活性化の数：DeepSeek-V2には160人の専門家と2人の共有専門家がおり、推論中にアクティブになっている専門家は6人だけです。この選択的活性化により、アクティブパラメーターの数が大幅に減少し、モデルがより効率的になります[5]。

deepseek-v3エキスパートルーティング

- 専門家の専門化の増加：DeepSeek-V3は、レイヤーあたりのルーティングされた専門家の数を60％増加させることにより、MOEアーキテクチャに基づいて160から256になります。これにより、モデルの知識と記憶能力が向上します[2]。

- 共有専門家：DeepSeek-V3は、常にアクティブ化されている共有専門家の概念を保持しています。各フィードフォワードネットワーク(FFN)レイヤーには1つの共有エキスパートがあり、すべての専門家がアクティブ化される3つのレイヤーがあり、コンテキスト全体で共通の知識をキャプチャするモデルの能力が向上しています[2] [4]。

- トークンから専門家の親和性：トークンの専門家への割り当ては、埋め込みスペースにおけるトークンから専門家の親和性に基づいています。ただし、DeepSeek-V3はルーティング崩壊に関連する課題に直面しており、トークンは一貫して同じ専門家にルーティングされ、他の専門家のトレーニングを妨げる可能性があります[2]。

- 積極的なMOE戦略：DeepSeek-V3は、より効率的な計算とスケーリングを可能にする、より積極的なMOE戦略を採用し、トレーニングにFP8精度を利用します。このアプローチにより、モデルはまばらな活性化を効果的に活用し、推論中のパラメーターの使用を最適化することができます[2] [4]。

要約すると、両方のモデルが効率的なルーティングとスパースアクティベーションのためにMOEアーキテクチャを使用していますが、DeepSeek-V3は専門家の専門化、より積極的なMOE戦略、および共有エキスパート構成の調整でこのアプローチを強化します。 DeepSeek-V2は、デバイスに制限されたルーティングと負荷分散補助損失を通じて、経済的トレーニングと効率的な推論に焦点を当てています。

引用：
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-efficient
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4ucnsfbqmda