FP8 Précision dans Deepseek-V3: améliorer l'efficacité et réduire les coûts dans la formation d'IA

FP8 Precision joue un rôle crucial dans le processus de formation de Deepseek-V3, améliorant considérablement l'efficacité et réduisant les coûts de calcul. Voici une explication détaillée de son rôle:

Introduction à la précision FP8

FP8 est un format à virgule flottante 8 bits qui offre une représentation plus compacte par rapport aux formats traditionnels 16 bits ou 32 bits. Cette compacité entraîne une utilisation réduite de la mémoire et un calcul plus rapide, ce qui le rend idéal pour la formation de modèle AI à grande échelle comme Deepseek-V3 [3] [5].

Framework de précision mixte

Deepseek-V3 utilise un cadre de précision mixte, où différentes parties du modèle utilisent différents niveaux de précision. La plupart des opérations à forte intensité de calcul, telles que la multiplication générale de la matrice (GEMM), sont effectuées dans FP8 pour optimiser la vitesse et l'utilisation de la mémoire. Cependant, certaines opérations qui nécessitent une précision plus élevée, comme le module d'incorporation, la tête de sortie, les modules de déclenchement MOE, les opérateurs de normalisation et les opérateurs d'attention, sont conservés dans des formats de précision plus élevés (FP16 ou FP32) pour maintenir la précision [1] [5].

Quantification à grains fins

Pour relever les défis de la gamme dynamique limitée de FP8, Deepseek-V3 introduit une stratégie de quantification à grains fins. Cela implique le regroupement des activations en carreaux 1x128 et des poids en blocs 128x128, chacun a mis à l'échelle indépendamment. Cette approche empêche les valeurs extrêmes de déformer l'ensemble du tenseur, de réduire les erreurs de quantification et de maintenir la précision du modèle [1] [5].

Quantification en ligne

Deepseek-V3 utilise la quantification en ligne, où les facteurs de mise à l'échelle sont calculés dynamiquement pour chaque tuile d'activation ou bloc de poids pendant l'entraînement. Cela élimine la nécessité de méthodes de quantification retardées qui reposent sur des valeurs maximales historiques, simplifiant le cadre et améliorant la précision [1] [5].

Précision d'accumulation accrue

Pour atténuer les erreurs causées par la précision d'accumulation limitée de FP8 dans les noyaux de tenseur, Deepseek-V3 favorise les résultats partiels aux registres FP32 à des intervalles spécifiques pendant les opérations GEMM. Cela garantit que l'accumulation de petites erreurs est minimisée, en maintenant la précision globale du modèle [1] [5].

Format Unified E4M3

Contrairement aux cadres précédents qui utilisaient des formats Hybride FP8 (par exemple, E4M3 pour le passage avant et E5M2 pour le pass arrière), Deepseek-V3 adopte universellement le format E4M3. Ceci est rendu possible par sa stratégie de quantification à grains fins, qui partage effectivement des bits d'exposants parmi les éléments groupés, en maintenant la précision à tous les calculs [1] [5].

Impact sur l'efficacité de la formation

L'utilisation de la précision FP8 accélère considérablement le processus de formation de Deepseek-V3. Le modèle a été formé à l'aide d'un centre de données de 2048 GPU en seulement deux mois, ne nécessitant que 2,664 millions d'heures de GPU H800 pour la pré-formation et 0,1 million d'heures de GPU supplémentaires pour les étapes suivantes. Cette efficacité est attribuée à la consommation de mémoire réduite et à une vitesse de calcul accrue offerte par FP8 [3] [6].

En résumé, la précision FP8 dans Deepseek-V3 est cruciale pour atteindre une efficacité de formation élevée tout en maintenant la précision du modèle. Il est soigneusement intégré dans un cadre de précision mixte, tirant parti de la quantification à grains fins et de la quantification en ligne pour atténuer les limites de FP8.

Citations:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-bit-floating-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-fp8-mixed-precision-training/

Pouvez-vous expliquer le rôle de la précision FP8 dans le processus de formation de Deepseek-V3