DeepSeek-V3の専門家選択プロセスは、専門家(MOE)アーキテクチャの混合を活用して、専門家全体にバランスのとれた効率的なタスクを確保するように設計されています。このプロセスは、入力トークンごとに最も関連性の高い専門家のみを動的にアクティブにすることにより、スキルの完璧なブレンドを実現するために重要です。
###専門家(MOE)建築の混合
DeepSeek-V3は、モデルを複数の「専門家」に分割することを含むMOEアーキテクチャを採用しています。このモデルには1人の共有専門家と256人のルーティングエキスパートがあり、8人のルーティングされた専門家が、関連性に基づいて各入力トークンに対してアクティブとして選択されています[1]。このアプローチにより、モデルは、各タスクに対して6710億のうち370億個のパラメーターのほんの一部のみをアクティブにすることにより、より効率的に入力を処理できます[6] [7]。
###エキスパート選択プロセス
DeepSeek-V3の専門家の選択は、入力トークン埋め込みのDOT積と特定の専門家の重心として計算されるアフィニティスコアに基づいています。このスコアは、専門家が入力トークンのニーズにどれだけよく一致するかを決定します[1]。このモデルは、トップK選択戦略を使用します。ここでは、トップスコアの専門家が処理のために選択されます。多くのトークンが少数の専門家に送られているルーティングの崩壊を避けるために、DeepSeek-V3は補助的な損失のない負荷分散戦略を採用しています。
Auxiliary-Lossのないロードバランシング
この戦略には、ルーティング中にアフィニティスコアにバイアスを追加することが含まれます。バイアスは、バッチ内の各専門家の使用に基づいて動的に調整されます。専門家が過負荷になっている場合、そのバイアスはさらなる割り当てを思いとどまらせるために縮小されますが、使用不足の専門家はより多くの使用を促進するためにバイアスを増加させます[1] [3]。このアプローチにより、追加の損失関数を必要とせずにワークロードが専門家に均等に分布することが保証されます。これにより、モデルのパフォーマンスが損なわれる場合があります[4]。
###エキスパート選択プロセスの利点
DeepSeek-V3の専門家選択プロセスは、いくつかの利点を提供します。
- 効率:関連する専門家のみをアクティブにすることにより、モデルは計算オーバーヘッドを削減し、より費用対効果とエネルギー効率の高い[6] [9]。
- 専門化:各専門家は、特定のタスクまたは知識分野に特化し、多様な入力のより微妙で正確な処理につながることができます[1] [9]。
- スケーラビリティ:MOEアーキテクチャにより、計算コストが過度にない大きなモデルが可能になり、より複雑で能力のあるAIシステムの開発が可能になります[4] [6]。
全体として、DeepSeek-V3の専門家選択プロセスにより、専門の専門家にタスクを動的に割り当て、効率を最適化し、モデルのパフォーマンスを向上させることにより、スキルの完璧なブレンドを保証します。
引用:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://www.herohunt.ai/blog/deepseeks-ai-model-revolutionizing-global-recruitment
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.reddit.com/r/localllama/comments/1hr56e3/notes_on_deepseek_v3_is_it_truly_better_than/
[6] https://alliedinsight.com/blog/deepseeks-technological-invations-a-deep-dive-the-the-the-v3-model/
[7] https://huggingface.co/deepseek-ai/deepseek-v3
[8] https://mindflow.io/blog/deepseek-vs-openai-what-is-deepseek-what-does-deepseek-do
[9] https://tldv.io/blog/what-is-deepseek/
[10] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond