Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Hogyan járul hozzá az Unified E4M3 formátum a DeepSeek-V3 hatékonyságához


Hogyan járul hozzá az Unified E4M3 formátum a DeepSeek-V3 hatékonyságához


Az egységes E4M3 formátum a DeepSeek-V3-ban jelentősen hozzájárul a modell hatékonyságához azáltal, hogy a vegyes pontosságú képzéssel kapcsolatos számos kihívással foglalkozik, különös tekintettel a dinamikus tartományra és a pontosságra. Íme egy részletes magyarázat arról, hogy ez a formátum hogyan javítja a hatékonyságot:

Finom szemcsés kvantálási stratégia

A DeepSeek-V3 finom szemcsés kvantálási stratégiát alkalmaz, amely lehetővé teszi az E4M3 formátum hatékony felhasználását az edzés minden szakaszában. Ellentétben a hibrid FP8 formátumokat használó korábbi keretekről (például E4M3 az előrehaladáshoz és az E5M2 a hátrányos átadáshoz), a DeepSeek-V3 megközelítés biztosítja, hogy az aktivációk csoportosuljanak és 1x128 csempe alapon vannak méretezve, míg a súlyokat 128x128 blokk alapján [1] [2] [2] [2]. Ez a granularitás elősegíti a jobb kezelés jobb kezelését az egyes csoportok méretezési tényezőinek dinamikus beállításával, ami enyhíti az FP8 formátumokban rejlő korlátozott dinamikus tartomány hatását [3].

Dinamikus méretezés és online kvantálás

A modell online kvantációt használ, ahol a méretezési tényezőket dinamikusan számolják minden aktiválási csempe vagy súlyblokkra az edzés során. Ez kiküszöböli a történelmi maximális értékek fenntartásának szükségességét, a keret egyszerűsítését és a pontosság javítását [1] [2]. Ezeknek a skálázási tényezőknek a dinamikus beállításával a DeepSeek-V3 optimalizálhatja a rendelkezésre álló FP8 szám-reprezentációs vödrök használatát, biztosítva, hogy a legtöbb érték ne csoportosuljon szűk tartományban, ami egyébként rossz pontossághoz vezet a kisebb értékeknél [3].

Csökkent memóriafelhasználás és számítási költségek

Az egységes E4M3 formátum, a finom szemcsés kvantálással kombinálva, jelentősen csökkenti a memória használatát. Az aktiválási és optimalizáló állapotok tárolásával alacsonyabb pontosságú formátumokban (például FP8 aktiválásokhoz), a DeepSeek-V3 minimalizálja a memóriaigényt, ami elengedhetetlen a nagyszabású modelleknél [1] [5]. Ezenkívül az FP8 kulcsszámításokhoz történő használata csökkenti a számítási költségeket, mivel ehhez kevesebb adatot kell feldolgozni a magasabb pontosságú formátumokhoz képest, mint például az FP16 vagy az FP32 [5].

fokozott numerikus stabilitás

A DeepSeek-V3 az FP8 képzéshez kapcsolódó numerikus precíziós veszteség kérdésével is foglalkozik azáltal, hogy elősegíti az FP32 regiszterek részleges eredményeit specifikus időközönként a felhalmozódás során. Ez a stratégia enyhíti a tenzormagokban a korlátozott bitszélesség-felhalmozódás által okozott hibákat, biztosítva a numerikus stabilitást és a megbízható képzést [1] [7].

Összefoglalva: az egységes E4M3 formátum a DeepSeek-V3-ban javítja a hatékonyságot azáltal, hogy lehetővé teszi a finom szemcsés kvantálást, a dinamikus méretezést, a memória csökkentését és a jobb numerikus stabilitást. Ezek az innovációk lehetővé teszik a DeepSeek-V3 számára, hogy elérje a legmodernebb teljesítményt, miközben optimalizálja a számítási erőforrásokat.

Idézetek:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-deepseek-v3?lang=en=en
[2] https://research.meekolab.com/deepseeks-low-rel-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/oveview-of-deepseek-v3:-Latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-explain-optimizing-effication-and-scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-power-open-source-activity-727888573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officialis_reeled_code_paper/