FP8-presisjon spiller en avgjørende rolle i treningsprosessen til DeepSeek-V3, noe som forbedrer effektiviteten betydelig og reduserer beregningskostnadene. Her er en detaljert forklaring av sin rolle:
Introduksjon til fp8 presisjon
FP8 er et 8-biters flytende punktformat som tilbyr en mer kompakt representasjon sammenlignet med tradisjonelle 16-biters eller 32-biters formater. Denne kompaktheten resulterer i redusert hukommelsesbruk og raskere beregning, noe som gjør den ideell for storstilt AI-modelltrening som DeepSeek-V3 [3] [5].
Mixed Precision Framework
DeepSeek-V3 bruker et rammeverk for blandet presisjon, der forskjellige deler av modellen bruker forskjellige nivåer av presisjon. De fleste beregningsintensive operasjoner, for eksempel generell matriksmultiplikasjon (GEMM), utføres i FP8 for å optimalisere hastighet og minnebruk. Imidlertid holdes visse operasjoner som krever høyere presisjon, som innebygde modul, utgangshode, MOE -gatemoduler, normaliseringsoperatører og oppmerksomhetsoperatører, i høyere presisjonsformater (FP16 eller FP32) for å opprettholde nøyaktighet [1] [5].
finkornet kvantisering
For å møte utfordringene med FP8s begrensede dynamiske område, introduserer DeepSeek-V3 en finkornet kvantiseringsstrategi. Dette innebærer gruppering av aktiveringer i 1x128 fliser og vekter i 128x128 blokker, hver skalert uavhengig. Denne tilnærmingen forhindrer at ekstreme verdier forvrenger hele tensoren, reduserer kvantiseringsfeil og opprettholder modellnøyaktighet [1] [5].
Online kvantisering
DeepSeek-V3 bruker online kvantisering, der skaleringsfaktorer beregnes dynamisk for hver aktiveringsflis eller vektblokk under trening. Dette eliminerer behovet for forsinkede kvantiseringsmetoder som er avhengige av historiske maksimale verdier, forenkler rammeverket og forbedrer nøyaktigheten [1] [5].
økt akkumuleringspresisjon
For å dempe feil forårsaket av FP8s begrensede akkumuleringspresisjon i tensorkjerner, fremmer DeepSeek-V3 delvise resultater til FP32-registre med spesifikke intervaller under GEMM-operasjoner. Dette sikrer at akkumulering av små feil minimeres, og opprettholder den generelle nøyaktigheten til modellen [1] [5].
Unified E4M3 -format
I motsetning til tidligere rammer som brukte hybrid FP8-formater (f.eks. E4M3 for fremoverpasset og E5M2 for bakoverpasset), vedtar DeepSeek-V3 universelt E4M3-formatet. Dette er muliggjort av dens finkornede kvantiseringsstrategi, som effektivt deler eksponentbiter blant grupperte elementer, og opprettholder presisjon på tvers av alle beregninger [1] [5].
Innvirkning på treningseffektivitet
Bruken av FP8-presisjon akselererer treningsprosessen til DeepSeek-V3 betydelig. Modellen ble trent ved hjelp av et datasenter på 2048 GPUer på omtrent to måneder, og krever bare 2,664 millioner H800 GPU-timer for forhåndsopplæring og ytterligere 0,1 millioner GPU-timer for påfølgende stadier. Denne effektiviteten tilskrives redusert minneforbruk og økt beregningshastighet som FP8 [3] [6] [6].
Oppsummert er FP8-presisjon i DeepSeek-V3 avgjørende for å oppnå høy treningseffektivitet og samtidig opprettholde modellnøyaktigheten. Det er nøye integrert i et blandet presisjonsrammeverk, utnytter finkornet kvantisering og online kvantisering for å dempe begrensningene til FP8.
Sitasjoner:
[1] https://community.aws/content/2rjj1wkztsfywvfsiiBhwxeqmf1/four-unique-takeaways-from-depseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-invovations-8-bit-floating-point-fp8-qi-e-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-fp8-mixed-precision-training/