Det samlede E4M3-format i Deepseek-V3 bidrager væsentligt til modellens effektivitet ved at tackle flere udfordringer forbundet med blandet-præcisionsuddannelse, især dem, der er relateret til dynamisk rækkevidde og præcision. Her er en detaljeret forklaring af, hvordan dette format forbedrer effektiviteten:
Finkornet kvantiseringsstrategi
Deepseek-V3 anvender en finkornet kvantiseringsstrategi, som giver den mulighed for effektivt at udnytte E4M3-formatet på tværs af alle træningsfaser. I modsætning til tidligere rammer, der brugte hybrid FP8-formater (f.eks. E4M3 til det forreste pas og E5M2 til bagudpasset), sikrer DeepSeek-V3s tilgang, at aktiveringer grupperes og skaleres på 1x128 flisebasis, mens der skaleres vægt på 128x128 blokeringsbasis [1] [2]. Denne granularitet hjælper med at bedre håndtere outliers ved dynamisk at justere skaleringsfaktorerne for hver gruppe, som mindsker virkningen af begrænset dynamisk rækkevidde i FP8 -formater [3].
Dynamisk skalering og online kvantisering
Modellen bruger online -kvantisering, hvor skaleringsfaktorer beregnes dynamisk for hver aktiveringsflise eller vægtblok under træning. Dette eliminerer behovet for at opretholde historiske maksimale værdier, forenkle rammerne og forbedre nøjagtigheden [1] [2]. Ved dynamisk at justere disse skaleringsfaktorer kan DeepSeek-V3 optimere brugen af de tilgængelige FP8-nummerrepræsentationsspande, hvilket sikrer, at de fleste værdier ikke er samlet i et snævert interval, hvilket ellers ville føre til dårlig præcision for mindre værdier [3].
Reduceret hukommelsesbrug og beregningsomkostninger
Det samlede E4M3-format kombineret med finkornet kvantisering reducerer hukommelsesforbruget markant. Ved at opbevare aktiveringer og optimizer-tilstande i formater med lavere præcision (f.eks. FP8 for aktiveringer) minimerer DeepSeek-V3 hukommelseskrav, hvilket er afgørende for store modeller [1] [5]. Derudover reducerer brugen af FP8 til nøgleberegninger beregningsomkostninger, da det kræver, at mindre data skal behandles sammenlignet med højere-præcisionsformater som FP16 eller FP32 [5].
Forbedret numerisk stabilitet
DeepSeek-V3 behandler også spørgsmålet om numerisk præcisionstab forbundet med FP8-træning ved at fremme delvise resultater til FP32-registre med specifikke intervaller under akkumulering. Denne strategi mindsker fejl forårsaget af den begrænsede bit-breddeakkumulering i tensorkerner, hvilket sikrer numerisk stabilitet og pålidelig træning [1] [7].
Sammenfattende forbedrer det samlede E4M3-format i DeepSeek-V3 effektiviteten ved at muliggøre finkornet kvantisering, dynamisk skalering, reduceret hukommelsesforbrug og forbedret numerisk stabilitet. Disse innovationer gør det muligt for Deepseek-V3 at opnå avanceret præstation, mens de optimerer beregningsressourcer.
Citater:
)
[2] https://research.meekolab.com/deepseeks-low-niveau-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-arkitecture
[4] https://dirox.com/post/deepseek-v3-the- open-cource-i-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-explained-optimizing-efficiency-andscal/
)
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officialt_released_code_paper/