Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Jak sjednocený formát E4M3 přispívá k účinnosti DeepSeek-V3


Jak sjednocený formát E4M3 přispívá k účinnosti DeepSeek-V3


Sjednocený formát E4M3 v DeepSeek-V3 významně přispívá k účinnosti modelu tím, že se zabývá několika výzvami spojenými s tréninkem se smíšenou přesností, zejména ty související s dynamickým rozsahem a přesností. Zde je podrobné vysvětlení toho, jak tento formát zvyšuje účinnost:

Jemnozrnná kvantizační strategie

DeepSeek-V3 využívá jemnozrnnou kvantizační strategii, která jí umožňuje efektivně využívat formát E4M3 ve všech fázích školení. Na rozdíl od předchozích rámců, které používaly hybridní formáty FP8 (např. E4M3 pro dopředný průsmyk a E5M2 pro zpětný průchod), přístup Deepseek-V3 zajišťuje, že aktivace jsou seskupeny a upravovány na základě dlaždice 1x128, zatímco hmotnosti jsou škálovány na základě 128x128 blokového základu [1] [2]. Tato granularita pomáhá při lepší manipulaci s odlehlými hodnotami dynamickým úpravou měřítkových faktorů pro každou skupinu, což zmírňuje dopad omezeného dynamického rozsahu vlastního formátů FP8 [3].

Dynamické škálování a online kvantizace

Model používá online kvantizaci, kde se faktory škálování vypočítají dynamicky pro každou aktivační dlaždici nebo blok hmotnosti během tréninku. To eliminuje potřebu udržovat historické maximální hodnoty, zjednodušení rámce a zlepšení přesnosti [1] [2]. Dynamickým nastavením těchto faktorů škálování může DeepSeek-V3 optimalizovat použití dostupných kbelíků na reprezentaci čísla FP8, což zajišťuje, že většina hodnot není seskupena v úzkém rozmezí, což by jinak vedlo ke špatné přesnosti pro menší hodnoty [3].

Sníženo využití paměti a výpočetní náklady

Sjednocený formát E4M3 v kombinaci s jemnozrnnou kvantizací významně snižuje využití paměti. Uložením stavů aktivací a optimalizátoru ve formátech s nižšími přesnostmi (např. FP8 pro aktivace), DeepSeek-V3 minimalizuje požadavky na paměť, což je zásadní pro rozsáhlé modely [1] [5]. Použití FP8 pro klíčové výpočty navíc snižuje výpočetní náklady, protože vyžaduje zpracování méně dat ve srovnání s formáty s vyšší přesností, jako je FP16 nebo FP32 [5].

Vylepšená numerická stabilita

DeepSeek-V3 se také zabývá problémem numerické přesnosti ztráty spojené s tréninkem FP8 podporou částečných výsledků FP32 registrů ve specifických intervalech během akumulace. Tato strategie zmírňuje chyby způsobené omezenou akumulací bitů v tenzorových jádrech, což zajišťuje numerickou stabilitu a spolehlivý trénink [1] [7].

Stručně řečeno, sjednocený formát E4M3 v DeepSeek-V3 zvyšuje účinnost tím, že umožňuje jemnozrnnou kvantizaci, dynamické škálování, snížené využití paměti a zlepšenou numerickou stabilitu. Tyto inovace umožňují DeepSeek-V3 dosáhnout nejmodernějšího výkonu a zároveň optimalizovat výpočetní zdroje.

Citace:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://research.meeKolab.com/deepseeks-low-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://ccIedUmp.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-echnical-report.html
[6] https://adasci.org/deepseek-v3-expplaided-optimising-efficience-and-scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-powerfuful-open-source-aktivity-7278488573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officially_releaded_code_paper/