DeepSeek-V3では、S状の関数は、専門家(MOE)アーキテクチャの混合における専門家ルーティングのアフィニティスコアの計算において重要な役割を果たします。 SoftMax関数を使用してアフィニティスコアを正常化することが多い従来のMOEモデルとは異なり、DeepSeek-V3はシグモイド関数を採用しています。この変更は、いくつかの方法でモデルに影響を与えます。
1。正規化とルーティング:シグモイド関数は、アフィニティスコアを計算するために使用されます。アフィニティスコアは、選択したすべてのアフィニティスコア間で正規化されてゲーティング値を生成します。このアプローチにより、SoftMaxと比較してより柔軟で微妙なルーティングメカニズムが可能になり、特定の専門家が過度に好まれているルーティング崩壊につながることがあります[4] [7]。
2。ルーティングの崩壊の回避:ほとんどのトークンが専門家の小さなサブセットにルーティングされ、計算リソースの非効率的な使用につながる場合、ルーティング崩壊が発生します。 DeepSeek-V3は、シグモイドのゲーティングを使用し、トレーニング中に動的に調整するバイアス用語を導入することにより、これを軽減します。これらのバイアス用語は、モデルのパフォーマンスに悪影響を与える可能性のある補助損失に依存することなく、専門家の負荷のバランスをとるのに役立ちます[4] [9]。
3。バイアス用語と動的調整:モデルには、各専門家のバイアス用語が組み込まれており、トップKの専門家を選択する前にアフィニティスコアに追加されます。これらのバイアス用語は、各専門家の負荷に基づいて動的に調整されます。専門家が過負荷になった場合、そのバイアス用語は減少し、それが負荷を負担した場合、バイアス用語は増加します。これにより、追加の損失を必要とせずに、専門家間のトークンのバランスの取れた分布が保証されます[4] [8]。
4.補完的なシーケンスごとの補助損失:DeepSeek-V3は主に補助損失を回避しますが、単一のシーケンスが専門家の小さなサブセットを大きく支持する極端なケースを防ぐための小さなシーケンスごとのバランス損失が含まれます。この損失は、全体的なトレーニングのダイナミクスに大きな影響を与えることなく、保護策として機能します[4]。
5。ノード制限ルーティング:通信コストを制御するには、DeepSeek-V3はノード制限ルーティングを採用します。各トークンは、最高のアフィニティスコアに基づいて最大のMノードに送信されます。この戦略により、トレーニング中にほぼフルな計算コミュニケーションの重複が可能になり、効率が向上します[4]。
全体として、DeepSeek-V3でシグモイド機能を使用すると、より柔軟で効率的なルーティングメカニズムが可能になり、パフォーマンスを犠牲にすることなく専門家の利用をバランスさせるモデルの能力に貢献します。
引用:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-apivity-7291477904792657920-rye_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-setection-with output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explaind-3-oxiliary-loss-free-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details