Format E4M3 unifié Deepseek-V3: Amélioration de l'efficacité du modèle

Le format E4M3 unifié dans Deepseek-V3 contribue de manière significative à l'efficacité du modèle en relevant plusieurs défis associés à la formation de précision mixte, en particulier ceux liés à la gamme dynamique et à la précision. Voici une explication détaillée de la façon dont ce format améliore l'efficacité:

Stratégie de quantification à grains fins

Deepseek-V3 utilise une stratégie de quantification à grain fin, qui lui permet d'utiliser efficacement le format E4M3 à toutes les étapes de la formation. Contrairement aux cadres précédents qui utilisaient des formats Hybrid FP8 (par exemple, E4M3 pour le passage avant et E5M2 pour le passage arrière), l'approche de Deepseek-V3 garantit que les activations sont regroupées et à l'échelle sur une base de carreaux 1x128, tandis que les poids sont mis à l'échelle sur un bloc 128x128 [1] [2]. Cette granularité aide à mieux manipuler les valeurs aberrantes en ajustant dynamiquement les facteurs de mise à l'échelle de chaque groupe, ce qui atténue l'impact de la plage dynamique limitée inhérente aux formats FP8 [3].

Échelle dynamique et quantification en ligne

Le modèle utilise la quantification en ligne, où les facteurs de mise à l'échelle sont calculés dynamiquement pour chaque carreau d'activation ou bloc de poids pendant l'entraînement. Cela élimine la nécessité de maintenir des valeurs maximales historiques, de simplifier le cadre et d'améliorer la précision [1] [2]. En ajustant dynamiquement ces facteurs de mise à l'échelle, Deepseek-V3 peut optimiser l'utilisation des seaux de représentation du nombre FP8 disponibles, garantissant que la plupart des valeurs ne sont pas regroupées dans une plage étroite, ce qui entraînerait autrement une mauvaise précision pour des valeurs plus petites [3].

Réduit l'utilisation de la mémoire et les coûts de calcul

Le format E4M3 unifié, combiné à une quantification à grains fins, réduit considérablement l'utilisation de la mémoire. En stockant les activations et les états d'optimiseur dans des formats de précision inférieure (par exemple, FP8 pour les activations), Deepseek-V3 minimise les exigences de mémoire, qui est cruciale pour les modèles à grande échelle [1] [5]. De plus, l'utilisation de FP8 pour les calculs clés réduit les coûts de calcul, car il nécessite que moins de données soient traitées par rapport aux formats de précision plus élevée comme FP16 ou FP32 [5].

stabilité numérique améliorée

Deepseek-V3 aborde également la question de la perte de précision numérique associée à la formation FP8 en favorisant les résultats partiels aux registres FP32 à des intervalles spécifiques pendant l'accumulation. Cette stratégie atténue les erreurs causées par l'accumulation limitée de la largeur des bits dans les noyaux du tenseur, assurant une stabilité numérique et une formation fiable [1] [7].

En résumé, le format E4M3 unifié dans Deepseek-V3 améliore l'efficacité en permettant une quantification à grains fins, une mise à l'échelle dynamique, une utilisation réduite de la mémoire et une stabilité numérique améliorée. Ces innovations permettent à Deepseek-V3 d'atteindre les performances de pointe tout en optimisant les ressources informatiques.

Citations:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-epseek-v3:-latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-plaked-optimising-efficy-and-scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-powerful-open-source-activity-7278488573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officiel_reled_code_paper/

Comment le format unifié E4M3 contribue-t-il à l'efficacité de Deepseek-V3

Stratégie de quantification à grains fins

Échelle dynamique et quantification en ligne

Réduit l'utilisation de la mémoire et les coûts de calcul

stabilité numérique améliorée