Das Unified E4M3-Format in Deepseek-V3 trägt erheblich zur Effizienz des Modells bei, indem sie mehrere Herausforderungen im Zusammenhang mit dem Training mit gemischten Präzisions, insbesondere denjenigen, die sich auf den Dynamikbereich und die Präzision beziehen, umgehen. Hier finden Sie eine detaillierte Erklärung, wie dieses Format die Effizienz verbessert:
feinkörnige Quantisierungsstrategie
Deepseek-V3 wendet eine feinkörnige Quantisierungsstrategie an, mit der sie das E4M3-Format in allen Schulungsstadien effektiv nutzen können. Im Gegensatz zu früheren Frameworks, die hybride FP8-Formate (z. B. E4m3 für den Vorwärtspass und E5M2 für den Rückwärtspass) verwendeten, stellt Deepseek-V3 sicher, dass Aktivierungen auf einer Basis von 1x128-Fliesen gruppiert und skaliert werden, während die Gewichte auf einer 128x128-Blockbasis skaliert werden [1] [1] [2]. Diese Granularität hilft beim besseren Umgang mit Ausreißern, indem die Skalierungsfaktoren für jede Gruppe dynamisch angepasst werden, was den Einfluss des begrenzten dynamischen Bereichs, der den FP8 -Formaten inhärent ist, verringert [3].
Dynamische Skalierung und Online -Quantisierung
Das Modell verwendet die Online -Quantisierung, wobei Skalierungsfaktoren für jede Aktivierungszyfliege oder jeden Gewichtsblock während des Trainings dynamisch berechnet werden. Dies beseitigt die Notwendigkeit, historische Maximumwerte aufrechtzuerhalten, den Rahmen zu vereinfachen und die Genauigkeit zu verbessern [1] [2]. Durch die dynamische Anpassung dieser Skalierungsfaktoren kann Deepseek-V3 die Verwendung der verfügbaren Eimer der FP8-Zahl der Zahlungsnummer optimieren und sicherstellen, dass die meisten Werte nicht in einem engen Bereich geklustert werden, was ansonsten zu einer schlechten Genauigkeit für kleinere Werte führen würde [3].
reduzierte Speicherverbrauch und Rechenkosten
Das einheitliche E4M3-Format, kombiniert mit feinkörniger Quantisierung, reduziert den Speicherverbrauch erheblich. Durch das Speichern von Aktivierungen und Optimiererzuständen in Formaten mit niedrigerer Präzision (z. B. FP8 für Aktivierungen) minimiert Deepseek-V3 die Speicheranforderungen, was für groß angelegte Modelle von entscheidender Bedeutung ist [1] [5]. Darüber hinaus reduziert die Verwendung von FP8 für wichtige Berechnungen die Rechenkosten, da weniger Daten im Vergleich zu Formaten mit höherer Präzision wie FP16 oder FP32 verarbeitet werden müssen [5].
Verbesserte numerische Stabilität
Deepseek-V3 befasst sich auch mit dem Problem des mit dem FP8-Trainings verbundenen numerischen Präzisionsverlusts, indem sie in bestimmten Abständen während der Akkumulation Teilergebnisse für FP32-Register fördert. Diese Strategie mindert Fehler, die durch die begrenzte Akkumulation der Bitbreite in Tensorkernen verursacht werden und die numerische Stabilität und ein zuverlässiges Training sicherstellen [1] [7].
Zusammenfassend verbessert das Unified E4M3-Format in Deepseek-V3 die Effizienz, indem feinkörnige Quantisierung, dynamische Skalierung, reduzierte Speicherverwendung und verbesserte numerische Stabilität ermöglicht werden. Diese Innovationen ermöglichen es Deepseek-V3, eine modernste Leistung zu erzielen und gleichzeitig die Rechenressourcen zu optimieren.
Zitate:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-yepseek-v3?lang=en
[2] https://research.meeekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-leepseek-v3:-latest-peepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-explained-optimizing-efficiency--scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-powerful-open-source-ctivity-72784888573006200832-KTA_
[8] https://www.reddit.com/r/localllama/commentments/1HMMtt3/deepseek_v3_is_officials_released_code_paper/