Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon SIGMOIDゲーティングは、DeepSeek-V3でルーティングの崩壊を防ぐのにどのように役立ちますか


SIGMOIDゲーティングは、DeepSeek-V3でルーティングの崩壊を防ぐのにどのように役立ちますか


Deepseek-V3でのシグモイドゲーティングは、ルーティングの崩壊を防ぐ上で重要な役割を果たします。これは、少数の専門家が他の人よりも一貫して支持され、モデルリソースの非効率的なトレーニングと利用につながる、専門家の混合(MOE)モデルの一般的な問題です。シグモイドゲーティングがどのように役立つかは次のとおりです。

##従来のソフトマックスゲーティングvs.シグモイドゲーティング

従来のMOEモデルは、多くの場合、SoftMaxゲーティングを使用しており、「勝者のすべて」シナリオにつながる可能性があります。 SoftMax出力は正規化されて1に合計されているため、特に初期の重みがわずかに優れている場合、1人の専門家がほぼ排他的に選択される極端な確率になります。これにより、他の専門家が十分に活用され、訓練されていないため、ルーティングの崩壊につながる可能性があります。

対照的に、SIGMOID GATINGは、各専門家に、専門家間の正規化なしに、独立して0〜1のスコアを割り当てます。これは、複数の専門家が同時に高いスコアを持つことができることを意味し、専門家間のトークンのよりバランスの取れた分布を可能にします。シグモイドゲーティングは、専門家間の厳しい競争を強制せず、各専門家が貢献する公正な機会を確保することにより、崩壊をルーティングする可能性を減らします[1] [4] [6]。

##動的バイアス調整

DeepSeek-V3は、各専門家に動的バイアス用語を導入することにより、シグモイドゲーティングをさらに強化します。これらのバイアスは、各専門家の負荷に基づいてトレーニング中に調整されます。専門家が過負荷になっている場合、そのバイアスはそれへのさらなるルーティングを思いとどまらせるために減少しますが、アンダーロードされた専門家はより多くのトークンを引き付けるためにバイアスを増加させます。この動的調整は、すべての専門家のバランスの取れた負荷を維持し、単一の専門家がルーティングの決定を支配するのを防ぎ、ルーティングの崩壊を防ぐのに役立ちます[2] [4] [6]。

##階層ゲーティング

DeepSeek-V3は、複数のレベルでスパースの制約を適用する階層ゲーティングも採用しています。当初、専門家の粗い選択が行われ、その後、選択したグループ内でより細かいフィルタリングが行われます。この階層的なアプローチにより、トークンごとに多様な専門家のセットがアクティブ化され、専門化の過剰化を防ぎ、異なるドメイン全体で一般化を促進することにより、ルーティング崩壊のリスクをさらに減らします[1] [6]。

##ノード制限ルーティング

さらに、DeepSeek-V3は、各トークンが通信できるノードの数を制限するノード制限ルーティングを使用します。この戦略は、クロスノード通信のオーバーヘッドを最小限に抑え、バランスの取れた専門家の利用を維持しながら効率的なトレーニングと推論を確保します[6]。

要約すると、DeepSeek-V3でのS状のゲーティングは、複数の専門家がそれらの間の厳格な競争を強制せずに同時に活性化できるようにすることにより、ルーティングの崩壊を防ぐのに役立ちます。動的バイアスの調整と階層的ゲーティングにより、各専門家が効果的に利用され、バランスの取れた負荷を維持し、専門家がルーティングの決定を支配するのを防ぐことをさらに保証します。

引用:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-apivity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-proved-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-former
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms