L'utilisation des opérations FP8 (point flottant 8 bits) pour les opérations de multiplication de la matrice générale (GEMM) dans Deepseek-V3 offre plusieurs avantages significatifs, principalement en termes d'efficacité de calcul et d'économies de mémoire. Voici les avantages détaillés:
1. Efficacité de calcul: les opérations FP8 offrent une augmentation substantielle de la vitesse de calcul par rapport aux opérations traditionnelles FP16 ou FP32. Plus précisément, les noyaux de tenseur de Nvidia peuvent effectuer des opérations GEMM FP8 à deux fois la vitesse de FP16, qui accélère le processus de formation global des modèles à grande échelle comme Deepseek-V3 [3] [4].
2. Économies de mémoire: l'utilisation de FP8 réduit la moitié des exigences de la mémoire par rapport à BF16, ce qui permet de former des modèles plus grands et plus profonds dans les mêmes contraintes matérielles. Ceci est particulièrement bénéfique pour les modèles qui nécessitent des ressources en mémoire étendues, permettant à des modèles plus complexes d'être développés sans avoir besoin de matériel supplémentaire [3] [6].
3. Communication efficace: Dans les environnements de formation distribués, FP8 réduit la bande passante requise pour le transfert de données entre les GPU, ce qui améliore l'efficacité de synchronisation et réduit les frais généraux de communication. Ceci est crucial pour les modèles d'IA à grande échelle qui reposent souvent sur des configurations informatiques distribuées [3].
4. Quantification à grains fins: Deepseek-V3 utilise une stratégie de quantification à grains fins pour relever les défis posés par la plage dynamique limitée de FP8. Cela implique de regrouper des éléments en carreaux ou blocs plus petits et en les élargissant indépendamment, ce qui aide à mieux gérer les valeurs aberrantes et à maintenir la stabilité numérique [1] [2].
5. Augmentation de la précision de l'accumulation: pour atténuer les erreurs causées par l'accumulation limitée de la largeur des bits dans les noyaux de tenseur, Deepseek-V3 favorise les résultats partiels des registres FP32 à des intervalles spécifiques pendant l'accumulation. Cela améliore la précision des opérations FP8 GEMM, garantissant que les avantages de FP8 sont réalisés sans compromettre la précision [1].
6. Format unifié E4M3: Contrairement aux approches précédentes qui ont utilisé des formats Hybride FP8, Deepseek-V3 adopte universellement le format E4M3. Ceci est facilité par sa stratégie de quantification à grains fins, qui partage effectivement des bits d'exposants parmi les éléments groupés, simplifiant le cadre et améliorant la précision [1].
7. Quantification en ligne: le modèle calcule dynamiquement les facteurs de mise à l'échelle pour chaque carreau d'activation ou bloc de poids pendant l'entraînement, éliminant le besoin de méthodes de quantification retardées. Cela simplifie le cadre et améliore la précision en s'adaptant aux caractéristiques de données en temps réel [1].
8. Support optimisé de la bibliothèque: le développement de DeepGemm, une bibliothèque GEMM FP8 optimisée, améliore encore l'efficacité des opérations FP8 dans Deepseek-V3. DeepgeMM prend en charge les architectures denses et MOE, garantissant des calculs matriciels efficaces qui sont critiques pour les modèles d'IA à grande échelle [4] [7]. Il utilise une compilation JIT (JIT) et une mise à l'échelle à grains fins pour maintenir l'efficacité de calcul tout en minimisant la perte de précision [4] [5].
Citations:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://blog.aitoolhouse.com/deepseek-ai-releases-deepgemmm-an-optimized-fp8-gemm-library-for-dense-and-moe-computation/
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-library-that-piwers-v3-and-r1-ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722