Deepseek-V3のFP8精度：AIトレーニングの効率の向上とコストの削減

FP8精度は、DeepSeek-V3のトレーニングプロセスにおいて重要な役割を果たし、効率を大幅に向上させ、計算コストを削減します。その役割の詳細な説明は次のとおりです。

FP8精度の紹介

FP8は、従来の16ビットまたは32ビット形式と比較して、よりコンパクトな表現を提供する8ビットのフローティングポイント形式です。このコンパクト性により、メモリの使用量が減少し、計算が高速になり、DeepSeek-V3 [3] [5]などの大規模なAIモデルトレーニングに最適です。

Mixed Precision Framework

DeepSeek-V3は、モデルの異なる部分が異なるレベルの精度を使用している混合精度フレームワークを採用しています。一般的なマトリックス乗算(GEMM)などのほとんどの計算集約型操作は、速度とメモリの使用量を最適化するためにFP8で実行されます。ただし、埋め込みモジュール、出力ヘッド、MOEゲーティングモジュール、正規化演算子、注意演算子など、より高い精度を必要とする特定の操作は、精度を維持するために高精度形式(FP16またはFP32)に保持されます[1] [5]。

##細粒の量子化

FP8の限られたダイナミックレンジの課題に対処するために、DeepSeek-V3はきめ細かい量子化戦略を導入します。これには、アクティベーションを1x128タイルとウェイトに128x128ブロックにグループ化することが含まれ、それぞれが個別にスケーリングされます。このアプローチは、極端な値がテンソル全体を歪め、量子化エラーを減らし、モデルの精度を維持することを防ぎます[1] [5]。

##オンライン量子化

DeepSeek-V3はオンライン量子化を使用します。ここでは、トレーニング中に各活性化タイルまたは重量ブロックに対してスケーリング係数が動的に計算されます。これにより、履歴の最大値に依存する遅延した量子化方法の必要性がなくなり、フレームワークの簡素化、精度の向上[1] [5]。

##蓄積精度の増加

テンソルコアのFP8の限られた蓄積精度によって引き起こされるエラーを軽減するために、DeepSeek-V3はGEMM操作中に特定の間隔でFP32レジスタに部分的な結果を促進します。これにより、小さなエラーの蓄積が最小化され、モデルの全体的な精度が維持されます[1] [5]。

Unified E4M3形式

ハイブリッドFP8形式(前方パスのE4M3、バックワードパスのE5M2など)を使用した以前のフレームワークとは異なり、DeepSeek-V3はE4M3形式を普遍的に採用しています。これは、グループ化された要素間で指数ビットを効果的に共有し、すべての計算にわたって精度を維持する微細粒子量子化戦略によって可能になります[1] [5]。

##トレーニング効率への影響

FP8精度の使用は、DeepSeek-V3のトレーニングプロセスを大幅に加速します。このモデルは、わずか2か月で2048 GPUのデータセンターを使用して訓練され、トレーニング前の2.664百万H800 GPU時間と、その後の段階ではさらに0.100万GPU時間が必要でした。この効率は、メモリ消費の減少とFP8 [3] [6]によって提供される計算速度の向上に起因します。

要約すると、DeepSeek-V3のFP8精度は、モデルの精度を維持しながら高いトレーニング効率を達成するために重要です。これは、FP8の制限を緩和するために、きめ細かい量子化とオンライン量子化を活用して、混合精密フレームワークに慎重に統合されています。

引用：
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-crippled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-bit-floating-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-fp8-mixed-precision-training/

DeepSeek-V3のトレーニングプロセスにおけるFP8精度の役割を説明できますか

FP8精度の紹介

Mixed Precision Framework

Unified E4M3形式