DeepSeek-V3 Unified E4M3-format: Forbedring av modellens effektivitet

Hvordan bidrar det enhetlige E4M3-formatet til effektiviteten til DeepSeek-V3

Det enhetlige E4M3-formatet i DeepSeek-V3 bidrar betydelig til modellens effektivitet ved å takle flere utfordringer knyttet til trening med blandet presisjon, spesielt de som er relatert til dynamisk rekkevidde og presisjon. Her er en detaljert forklaring på hvordan dette formatet forbedrer effektiviteten:

finkornet kvantiseringsstrategi

DeepSeek-V3 bruker en finkornet kvantiseringsstrategi, som lar den effektivt bruke E4M3-formatet i alle treningsstadier. I motsetning til tidligere rammer som brukte hybrid FP8-formater (f.eks. E4M3 for fremoverpasset og E5M2 for bakoverpasset), sikrer DeepSeek-V3-tilnærmingen at aktiveringer er gruppert og skalert på 1x128 flisbasis, mens vekter skaleres på en 128x128 blokkbasis [1] [2]. Denne granulariteten hjelper med å bedre håndtere outliers ved dynamisk å justere skaleringsfaktorene for hver gruppe, som reduserer virkningen av begrenset dynamisk område som ligger i FP8 -formater [3].

Dynamisk skalering og online kvantisering

Modellen bruker online kvantisering, der skaleringsfaktorer beregnes dynamisk for hver aktiveringsflis eller vektblokk under trening. Dette eliminerer behovet for å opprettholde historiske maksimale verdier, forenkle rammen og forbedre nøyaktigheten [1] [2]. Ved å justere disse skaleringsfaktorene dynamisk, kan DeepSeek-V3 optimalisere bruken av de tilgjengelige FP8-nummerrepresentasjonsbøttene, og sikre at de fleste verdier ikke er gruppert i et smalt område, noe som ellers vil føre til dårlig presisjon for mindre verdier [3].

Redusert hukommelsesbruk og beregningskostnader

Det enhetlige E4M3-formatet, kombinert med finkornet kvantisering, reduserer hukommelsesbruken betydelig. Ved å lagre aktiveringer og optimaliseringsstater i lavere presisjonsformater (f.eks. FP8 for aktiveringer), minimerer DeepSeek-V3 minnekrav, noe som er avgjørende for store modeller [1] [5]. I tillegg reduserer bruken av FP8 for viktige beregninger beregningskostnader, da det krever at mindre data skal behandles sammenlignet med formater med høyere presisjon som FP16 eller FP32 [5].

forbedret numerisk stabilitet

DeepSeek-V3 adresserer også spørsmålet om numerisk presisjonstap assosiert med FP8-trening ved å fremme delvise resultater til FP32-registre med spesifikke intervaller under akkumulering. Denne strategien reduserer feil forårsaket av den begrensede bitbreddeansamlingen i tensorkjerner, og sikrer numerisk stabilitet og pålitelig trening [1] [7].

Oppsummert forbedrer det enhetlige E4M3-formatet i DeepSeek-V3 effektiviteten ved å gi mulighet for finkornet kvantisering, dynamisk skalering, redusert minnebruk og forbedret numerisk stabilitet. Disse innovasjonene gjør det mulig for DeepSeek-V3 å oppnå topp moderne ytelse mens de optimaliserer beregningsressursene.

Sitasjoner:
[1] https://community.aws/content/2rjj1wkztsfywvfsiiBhwxeqmf1/four-unique-takeaways-from-depseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-arkitektur
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-depseek-v3:-latest-edseek-technical-report.html
[6] https://adasci.org/deepseek-v3-eplained-optimizing-efficiency-and-cale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-mectful-open-source-activity-7278488573006200832-kta__
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officialt_release_code_paper/