Brugen af FP8 (8-bit flydende punkt) til generel matrix multiplikation (GEMM) operationer i Deepseek-V3 giver flere betydelige fordele, primært med hensyn til beregningseffektivitet og hukommelsesbesparelser. Her er de detaljerede fordele:
1. Beregn effektivitet: FP8 -operationer giver en betydelig stigning i beregningshastighed sammenlignet med traditionelle FP16- eller FP32 -operationer. Specifikt kan NVIDIAs tensorkerner udføre FP8 GEMM-operationer med det dobbelte af hastigheden af FP16, som fremskynder den samlede træningsproces for store modeller som Deepseek-V3 [3] [4].
2. Hukommelsesbesparelser: Brug af FP8 reducerer hukommelseskravene med halvdelen sammenlignet med BF16, hvilket gør det muligt at træne større og dybere modeller inden for de samme hardware -begrænsninger. Dette er især fordelagtigt for modeller, der kræver omfattende hukommelsesressourcer, hvilket gør det muligt at udvikle mere komplekse modeller uden at have brug for yderligere hardware [3] [6].
3. Effektiv kommunikation: I distribuerede træningsmiljøer reducerer FP8 den båndbredde, der kræves til dataoverførsel mellem GPU'er, hvilket forbedrer synkroniseringseffektiviteten og reducerer kommunikationen over hovedet. Dette er afgørende for store AI-modeller, der ofte er afhængige af distribuerede computeropsætninger [3].
4. Finkornet kvantisering: Deepseek-V3 anvender en finkornet kvantiseringsstrategi til at tackle de udfordringer, som FP8s begrænsede dynamiske rækkevidde stiller. Dette involverer gruppering af elementer i mindre fliser eller blokke og skalering af dem uafhængigt, hvilket hjælper med at bedre håndtere outliers og opretholde numerisk stabilitet [1] [2].
5. Forøget akkumuleringspræcision: For at afbøde fejl forårsaget af den begrænsede bit-breddeakkumulering i tensorkerner fremmer DeepSeek-V3 delvise resultater til FP32-registre med specifikke intervaller under akkumulering. Dette forbedrer præcisionen af FP8 GEMM -operationer, hvilket sikrer, at fordelene ved FP8 realiseres uden at gå på kompromis med nøjagtigheden [1].
6. Unified E4M3-format: I modsætning til tidligere tilgange, der brugte hybrid FP8-formater, vedtager DeepSeek-V3 E4M3-formatet universelt. Dette er lettet af sin finkornede kvantiseringsstrategi, der effektivt deler eksponentbits blandt grupperede elementer, forenkler rammen og forbedrer nøjagtigheden [1].
7. Online -kvantisering: Modellen beregner skaleringsfaktorer dynamisk for hver aktiveringsfliser eller vægtblok under træning, hvilket eliminerer behovet for forsinkede kvantiseringsmetoder. Dette forenkler rammerne og forbedrer nøjagtigheden ved at tilpasse sig realtidsdatakarakteristika [1].
8. Optimeret biblioteksstøtte: Udviklingen af DeepGEMM, et optimeret FP8 GEMM-bibliotek, forbedrer yderligere effektiviteten af FP8-operationer i DeepSeek-V3. DeepGEMM understøtter både tætte og MOE-arkitekturer, hvilket sikrer effektive matrixberegninger, der er kritiske for store AI-modeller [4] [7]. Den bruger Just-In-Time (JIT) -kompilering og finkornet skalering til at opretholde beregningseffektivitet, mens det minimerer præcisionstab [4] [5].
Citater:
)
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-arkitecture
)
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
)
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722