Deepseekは、特にその混合物(MOE)アーキテクチャで、トレーニング中のトークンドロップを防ぐためにいくつかの戦略を採用しています。これが重要な対策です:
1。トークンドロップ戦略:DeepSeekは、従来のMOEモデルと同様に、ルーティング確率に基づいてトークンごとのドロップアプローチを利用します。これは、トークンがスコアに従ってドロップされることを意味し、トークンカウントが特定の容量を超えたときに最も重要なトークンのみが破棄されることを保証します。容量は、焦点がエキスパートまたはデバイスの寸法に焦点を当てているかどうかによって異なる方法で計算されます。これは、さまざまな専門家やデバイスによって効果的にトークンが処理される方法を管理するのに役立ちます[1]。
2。デバイスレベルのトークンドロップ:戦略は主にすべてのエキスパートスコアがソートされ、確率が最も低いトークンがドロップされるデバイスレベルで動作します。これにより、各デバイスは、全体的なパフォーマンス効率を維持しながら、単一の専門家を圧倒することなく負荷を管理できるようになります[1]。
3。保証されたトークン保持:DeepSeekは、トレーニングシーケンスからの約10%のトークンが決して削除されないようにするための特定の戦略を実装しました。これは、トレーニングデータの完全性を維持し、トレーニングプロセス全体で重要な情報が保存されるようにするために重要です[2] [6]。
4。負荷分散:最新バージョンのDeepSeek-V3では、トレーニング中にトークンを完全にドロップする必要性を排除する効果的な負荷分散戦略が採用されています。専門家の負荷を動的に調整し、マルチトークン予測目標を利用することにより、DeepSeek-V3は専門家間のトークンのバランスの取れた分布を維持し、トレーニング中のデータの損失を防ぎます[2]。
これらの措置は、データの損失を最小限に抑え、計算効率を最大化しながら、トレーニングプロセスを最適化するというDeepSeekのコミットメントを反映しています。
引用:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
[3] https://www.tradingview.com/news/financemagnates:c7148cfce094b:0-why-is-crypto-down-down-fake-deepseek-tokens-affect-sulys-syloders/
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/why-is-crypto-owing-down-down-down-deepseek-tokens-affect-soulty-s-of-traders/
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716