„Deepseek-V3 Unified E4M3“ formatas: Modelio efektyvumo tobulinimas

Kaip vieningas E4M3 formatas prisideda prie „DeepSeeek-V3“ efektyvumo

Vieningas E4M3 formatas „Deepseek-V3“ labai prisideda prie modelio efektyvumo, sprendžiant keletą iššūkių, susijusių su mišraus tikslumo mokymu, ypač susijusius su dinaminiu diapazonu ir tikslumu. Čia pateiktas išsamus paaiškinimas, kaip šis formatas padidina efektyvumą:

smulkiagrūdis kvantizavimo strategija

„Deepseek-V3“ naudojama smulkiagrūdis kvantizavimo strategija, kuri leidžia efektyviai panaudoti E4M3 formatą visuose mokymo etapuose. Skirtingai nuo ankstesnių rėmų, kurie naudojo hibridinius FP8 formatus (pvz., E4M3 priekiniam leidimui ir E5M2, kad būtų galima atsilikti), „Deepseeek-V3“ metodas užtikrina, kad aktyvacijos būtų sugrupuotos ir suskirstytos į 1x128 plytelių pagrindą, o svoriai yra sumažinami pagal 128x128 bloko pagrindus [1] [2]. Šis detalumas padeda geriau valdyti pašalinius dalykus dinamiškai koreguojant kiekvienos grupės mastelio koeficientus, o tai sumažina riboto dinaminio diapazono, būdingo FP8 formatams, poveikį [3].

dinaminis mastelio keitimas ir internetinis kiekis

Modelyje naudojamas internetinis kvantizavimas, kai mastelio keitimo koeficientai dinamiškai apskaičiuojami kiekvienai aktyvacijos plytelėms ar svorio blokui treniruotės metu. Tai pašalina poreikį išlaikyti istorines maksimalias vertes, supaprastinti sistemą ir pagerinti tikslumą [1] [2]. Dinamiškai pakoreguodamas šiuos mastelio keitimo veiksnius, „DeepSeeek-V3“ gali optimizuoti turimų FP8 skaičiaus atvaizdų kibirų naudojimą, užtikrindamas, kad dauguma verčių nėra suskirstytos į siaurą diapazoną, o tai priešingu atveju būtų prastas tikslumas mažesnėms vertėms [3].

Sumažintos atminties naudojimo ir skaičiavimo išlaidos

Vieningas E4M3 formatas kartu su smulkiagrūdžiu kvanalizavimu žymiai sumažina atminties naudojimą. Aktyvinimo ir optimizavimo būsenų kaupimas mažesnio tikslumo formatais (pvz., FP8 aktyvacijoms), „DeepSeeek-V3“ sumažina atminties reikalavimus, o tai yra labai svarbi didelio masto modeliams [1] [5]. Be to, FP8 naudojimas pagrindiniams skaičiavimams sumažina skaičiavimo išlaidas, nes tam reikia mažiau duomenų, palyginti su didesnio tikslumo formatais, tokiais kaip FP16 ar FP32 [5].

Patobulintas skaitinis stabilumas

„Deepseek-V3“ taip pat nagrinėja skaitmeninio tikslumo nuostolių, susijusių su FP8 mokymu, problemą, skatinant dalinius FP32 registrų rezultatus tam tikru intervalu kaupimo metu. Ši strategija sušvelnina klaidas, kurias sukelia ribotas bitų pločio kaupimasis tenzoriniuose šerdyse, užtikrinant skaitmeninį stabilumą ir patikimą treniruotę [1] [7].

Apibendrinant galima pasakyti, kad vieningas E4M3 formatas „Deepseek-V3“ padidina efektyvumą, nes leidžia tiksliai nustatyti dinaminį mastelį, sumažinti atminties naudojimą ir patobulinti skaitinį stabilumą. Šios naujovės suteikia galimybę „Deepseek-V3“ pasiekti moderniausius našumą, tuo pačiu optimizuodami skaičiavimo išteklius.

Citatos:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-akeaways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-Low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architcture
[4] https://dirox.com/post/deepseek-v3-the-open-ource-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-technical-report.html
[6] https://adaci.org/deepseek-v3-oxplied-optimizing-fefictity-and-cale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-emost-powerful-open-source-actity-727848573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officialy_related_code_paper/