Enotni format E4M3 v Deepseek-V3 znatno prispeva k učinkovitosti modela z reševanjem več izzivov, povezanih z usposabljanjem mešanega natančnosti, zlasti tistih, povezanih z dinamičnim razponom in natančnostjo. Tu je podrobna razlaga, kako ta oblika povečuje učinkovitost:
Finozrnate strategija kvantizacije
Deepseek-V3 uporablja finozrnato strategijo kvantizacije, ki mu omogoča učinkovito uporabo formata E4M3 v vseh fazah usposabljanja. Za razliko od prejšnjih okvirov, ki so uporabili hibridne formate FP8 (npr. E4M3 za prehod naprej in E5M2 za zaostali prehod), pristop Deepseek-V3 zagotavlja, da so aktivacije razvrščene in zmanjšane na podlagi ploščice 1x128, medtem ko se uteži zmanjšajo na osnovi bloka 128x128 [2]. Ta natančnost pomaga pri boljšem ravnanju z odtekami z dinamično prilagajanjem faktorjev skaliranja za vsako skupino, kar blaži vpliv omejenega dinamičnega območja, ki je značilen za formate FP8 [3].
Dinamično skaliranje in kvantizacija na spletu
Model uporablja kvantizacijo na spletu, kjer se faktorji skaliranja med treningom dinamično izračunajo za vsako aktivacijsko ploščico ali blok teže. To odpravlja potrebo po ohranjanju zgodovinskih največjih vrednosti, poenostavi okvir in izboljšanje natančnosti [1] [2]. Z dinamično prilagajanjem teh faktorjev skaliranja lahko Deepseek-V3 optimizira uporabo razpoložljivih vedrov številke FP8 in tako zagotovi, da se večina vrednosti ne združi v ozkem območju, kar bi sicer privedlo do slabe natančnosti za manjše vrednosti [3].
Zmanjšana poraba pomnilnika in računski stroški
Enotni format E4M3 v kombinaciji s finozrnatim kvantizacijo znatno zmanjša porabo pomnilnika. S shranjevanjem aktivacij in optimizatorskih stanj v formatih z nižjo natančnostjo (npr. FP8 za aktivacije) Deepseek-V3 zmanjša zahteve pomnilnika, kar je ključnega pomena za obsežne modele [1] [5]. Poleg tega uporaba FP8 za ključne izračune zmanjšuje računske stroške, saj zahteva, da se obdelamo manj podatkov v primerjavi s formatom z višjo natančnostjo, kot sta FP16 ali FP32 [5].
Izboljšana numerična stabilnost
Deepseek-V3 obravnava tudi vprašanje številčne izgube natančnosti, povezane z usposabljanjem FP8, s spodbujanjem delnih rezultatov v registre FP32 v določenih intervalih med kopičenjem. Ta strategija blaži napake, ki jih povzroča omejeno kopičenje bitne širine v tenzorskih jedrih, kar zagotavlja numerično stabilnost in zanesljivo usposabljanje [1] [7].
Če povzamemo, enotni format E4M3 v Deepseek-V3 poveča učinkovitost, saj omogoča finozrnate kvantizacije, dinamično skaliranje, zmanjšano uporabo pomnilnika in izboljšano numerično stabilnost. Te inovacije omogočajo Deepseek-V3 doseči najsodobnejšo uspešnost in hkrati optimizirati računske vire.
Navedbe:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-wardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-epseek-v3:-latest-deepseek-technical-Report.html
[6] https://adasci.org/deepseek-v3-explained-optimizing-effice-and-scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-mow-mowful-Open-source-aktivnost-727888573006200832-KTA_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officialy_releise_code_paper/