急速に成長している中国のAIスタートアップであるDeepseekは、特に最新のモデルであるDeepSeek-V3を通じて、大規模なトークン要求を効果的に管理するためのいくつかの戦略を採用しています。このモデルでは、混合物(MOE)アーキテクチャを使用して、処理された各トークンのパラメーターのサブセットを選択的にアクティブにすることができます。具体的には、DeepSeek-V3には合計6710億パラメーターがありますが、推論中に各トークンに対して370億のみがアクティブになっています。この設計は、すべてのパラメーターがすべての要求[1] [4]に関与している従来の高密度モデルと比較して、計算効率を大幅に向上させます。
パフォーマンスをさらに最適化するために、DeepSeek-V3は、トレーニングと推論プロセスを通じて効果的な負荷分散戦略を実装しています。このアプローチにより、どちらのフェーズでもトークンがドロップされないことが保証されます。このモデルは、通信コストを制限し、ほぼ完全な計算コミュニケーションの重複を可能にする制限されたルーティングメカニズムを利用することにより、優れた負荷バランスを維持します。その結果、DeepSeek-V3は、パフォーマンスや信頼性を犠牲にすることなく、大量のトークン要求を処理できます[2] [4]。
トレーニングに関しては、DeepSeek-V3は、14.8兆トークンを含む広範なデータセットで事前に訓練されており、その後、その機能を改善するための監視された微調整と強化学習の段階が続きます。トレーニングプロセスは、安定して効率的になるように設計されており、2か月未満で完了し、GPU時間で約5576万ドルの総費用がかかります[1] [2]。このリソースの効率的な使用により、DeepSeekはサービス全体で大規模なトークンリクエストを管理しながら効果的にスケーリングできます。
全体として、Deepseekの革新的なアーキテクチャと戦略的アプローチにより、実質的なトークンリクエストを効率的に処理できるようになり、AIランドスケープの競争力のあるプレーヤーになります。
引用:
[1] https://thehackernews.com/2025/01/top-rated-chinese-aip-deepseek.html
[2] https://arxiv.org/html/2412.19437v1
[3] https://protos.com/chinese-openai-rival-deepseek-limits-signups-after-rage-scale-attack/
[4] https://encord.com/blog/deepseek-ai/
[5] https://www.techtarget.com/whatis/feature/deepseek-explained-Everything-you-need-to-know
[6] https://www.reddit.com/r/localllama/comments/1hzkw3f/deepseek_v3_is_the_gift_that_keeps_on_giving/
[7] https://www.cnbc.com/2025/01/27/deepseek-hit-with-scale-cyberatcack-says-its-limiting-registrations.html
[8] https://daily.dev/blog/deepseek-everything-you-need-to-nuk-about-this-llm-in-one-floce