Formát E4M3 Deepseek-V3: Zvýšenie efektívnosti modelu

Jednotný formát E4M3 vo DeepSEEK-V3 významne prispieva k efektívnosti modelu riešením niekoľkých výziev spojených s školením so zmiešanou presnosťou, najmä tie, ktoré sa týkajú dynamického rozsahu a presnosti. Tu je podrobné vysvetlenie toho, ako tento formát zvyšuje efektívnosť:

jemnozrnná kvantizačná stratégia

DeepSEEK-V3 využíva jemnozrnnú kvantizačnú stratégiu, ktorá jej umožňuje efektívne využívať formát E4M3 vo všetkých fázach školenia. Na rozdiel od predchádzajúcich rámcov, ktoré používali hybridné formáty FP8 (napr. E4M3 pre Forward Pass a E5M2 pre spätný priechod), prístup Deepseek-V3 zaisťuje, že aktivácie sú zoskupené a zmenšené na základe dlaždíc 1x128, zatiaľ čo váhy sa zmenšujú na základe základe bloku 128x128 [1] [2]. Táto granularita pomáha pri lepšom manipulácii s odľahlými hodnotami dynamickým úpravou škálovacích faktorov pre každú skupinu, čo zmierňuje vplyv obmedzeného dynamického rozsahu spojeného s formátmi FP8 [3].

Dynamické škálovanie a kvantizácia online

Model používa online kvantizáciu, kde sa faktory škálovania vypočítavajú dynamicky pre každú aktivačnú dlaždicu alebo váhový blok počas tréningu. Tým sa eliminuje potreba udržiavania historických maximálnych hodnôt, zjednodušenie rámca a zlepšenie presnosti [1] [2]. Dynamickým úpravou týchto škálovacích faktorov môže Deepseek-V3 optimalizovať použitie dostupných vedier reprezentácie FP8, čím sa zabezpečí, že väčšina hodnôt nie je zhlukovaná v úzkom rozsahu, čo by inak viedlo k zlej presnosti pre menšie hodnoty [3].

Znížené využitie pamäte a výpočtové náklady

Jednotný formát E4M3 v kombinácii s jemnozrnnou kvantizáciou významne znižuje využitie pamäte. Ukladaním aktivácií a optimalizátorov v nestaríchových formátoch (napr. FP8 pre aktivácie), DeepSEEK-V3 minimalizuje požiadavky na pamäť, čo je rozhodujúce pre rozsiahle modely [1] [5]. Použitie FP8 na kľúčové výpočty navyše znižuje výpočtové náklady, pretože vyžaduje spracovanie menej údajov v porovnaní s formátmi s vyššou presnosťou, ako sú FP16 alebo FP32 [5].

Vylepšená numerická stabilita

DeepSEEK-V3 sa tiež zaoberá otázkou numerickej presnej straty spojenej s tréningom FP8 tým, že počas akumulácie podporuje čiastočné výsledky na registre FP32 v konkrétnych intervaloch. Táto stratégia zmierňuje chyby spôsobené obmedzenou akumuláciou bitovej šírky v tenzorových jadrách, čím sa zabezpečuje numerická stabilita a spoľahlivé školenie [1] [7].

Stručne povedané, zjednotený formát E4M3 vo formáte DeepSEEK-V3 zvyšuje účinnosť tým, že umožňuje jemnozrnnú kvantizáciu, dynamické škálovanie, znížené využitie pamäte a vylepšenú numerickú stabilitu. Tieto inovácie umožňujú Deepseek-V3 dosiahnuť najmodernejší výkon a zároveň optimalizovať výpočtové zdroje.

Citácie:
[1] https://community.aws/content/2rjj1wkztsfywvfSiibHwxeqmf1/four-unique-takaways-from-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-wardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://ccidump.spoto.net/newblog/overviewof-deepseek-v3:-atest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-explained-optimization-efficiention-and-scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-t--Powerful-open-sen-source-activity-7278488573006200832-KTA_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officily_releAd_code_paper/

Ako formát zjednoteného formátu E4M3 prispieva k efektívnosti Deepseek-V3

jemnozrnná kvantizačná stratégia

Dynamické škálovanie a kvantizácia online

Znížené využitie pamäte a výpočtové náklady

Vylepšená numerická stabilita