DeepSeek-V3では、バイアス用語とシグモイドゲーティングの動的調整は、専門家の負荷不均衡の問題に対処することにより、モデルの効率とパフォーマンスを向上させるために連携します。これらのコンポーネントが互いに補完する方法の詳細な説明を次に示します。
###バイアス用語の動的調整
DeepSeek-V3は、各専門家にバイアス用語を導入します。これは、トレーニング中に動的に調整され、負荷バランスを維持します。このアプローチは、最適なルーティング決定よりも負荷バランスに優先順位を付けることにより、モデルのパフォーマンスに悪影響を与える可能性のある補助損失の必要性を回避します。バイアス用語は、TOP-Kルーティングの決定を下す前にエキスパートアフィニティスコアに追加されますが、元のアフィニティスコアから派生したゲーティング値には影響しません。これにより、バランスの取れたルーティングを促進しながら、専門家の貢献がそのままであることが保証されます。
- 調整メカニズム:専門家が過負荷になっている場合(平均よりも多くのトークンを受け取る)、そのバイアス項は減少します。逆に、専門家が負荷を負担した場合、そのバイアス用語が増加します。この調整は、ルーティングの崩壊を防ぐのに役立ちます。モデルが数人の専門家に過度に支持し、非効率的な計算と専門的な利点の減少につながる可能性があります。
###シグモイドゲーティング
Deepseek-V3は、従来のソフトマックスゲーティングを、専門家のルーティングのためにシグモイドゲーティングに置き換えます。この変更により、シグモイド関数は実際の価値のある数値を0〜1の値にマッピングするため、各専門家が選択される可能性があります。ソフトマックスとは異なり、専門家の間で競争力のある環境を作り出すことができます(1人の専門家の利益は別の損失です)、SILGMOIDゲーティングにより、各エキスパートのスコアが他の人とは独立しています。
- シグモイドゲーティングの利点:このアプローチにより、モデルが少数の専門家を過度に支持することを妨げます。各専門家に公正なショットを与えることで、Sigmoid Gatingは、専門家のよりバランスのとれた多様な利用を促進し、モデルの全体的な能力と効率を高めます。
###補完シーケンスごとの補助損失
主要なメカニズムは補助ロスフリーですが、DeepSeek-V3には相補的なシーケンスごとのバランス損失も組み込まれています。非常に小さなハイパーパラメーターによって制御されるこの損失は、単一のシーケンスが専門家の小さなサブセットを大きく支持する可能性のある極端なケースを防ぐための保護手段として機能します。全体的なトレーニングのダイナミクスに大きな影響を与えることなく、各シーケンス内のバランスを保証します。
###動的バイアスの調整とシグモイドゲーティングがどのように互いに補完するか
1.バランスの取れた専門家の利用:バイアス用語の動的調整により、すべての専門家のバランスの取れた負荷を維持する専門家が過度に好まれたり、十分に活用されていないことが保証されます。 Sigmoid Gatingは、各専門家に独立したスコアを提供し、競争を減らし、すべての専門家が貢献する機会を確保することにより、これをサポートしています。
2。効率的なルーティング:専門家の利用に基づいてバイアス用語を動的に調整することにより、モデルはパフォーマンスを損なう可能性のある補助損失に依存することなく、最も適切な専門家にトークンを効率的にルーティングできます。 S状のゲーティングは、より微妙な選択プロセスを可能にすることにより、この効率的なルーティングを促進します。
3。モデルパフォーマンスの改善:動的バイアス調整とS状のゲーティングの組み合わせにより、各トークンが最も適切な専門家によって処理されるようにすることにより、モデルのパフォーマンスが向上します。これにより、専門家の間での専門化と知識の共有が向上し、多様なタスクを効率的に処理するモデルの能力が向上します。
要約すると、DeepSeek-V3でのバイアス用語とシグモイドゲーティングの動的調整は、従来の補助損失の欠点を避けながら、バランスの取れた専門家の利用、効率的なルーティング、モデルパフォーマンスの改善を実現します。
引用:
[1] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[2] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-apivity-7287631625310412800-ncyv
[3] https://proceedings.neurips.cc/paper_files/paper/2024/file/1cded4f97cf5f01a284c574110b7e3b9-paper-conference.pdf
[4] https://www.linkedin.com/posts/josif-grabocka-7651b37_241219437v1-アクティビティ-7289784195130781696-dm_v
[5] https://huggingface.co/deepseek-ai/deepseek-v3/blob/main/configuration_deepseek.py
[6] https://ai.gopubby.com/deepseek-v3-explaine-2-deepseekmoe-106cffcc56c1
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.youtube.com/watch?v=8v2l6sjecw4
[9] https://rxiv.org/ai/
[10] https://fireworks.ai/blog/deepseek-model-architecture