Deepseek-V3 Unified E4M3-format: Förbättra modelleffektiviteten

Hur bidrar det enhetliga E4M3-formatet till effektiviteten i Deepseek-V3

Det enhetliga E4M3-formatet i Deepseek-V3 bidrar väsentligt till modellens effektivitet genom att hantera flera utmaningar förknippade med blandad precisionsträning, särskilt de som är relaterade till dynamiskt intervall och precision. Här är en detaljerad förklaring av hur detta format förbättrar effektiviteten:

Finkornig kvantiseringsstrategi

Deepseek-V3 använder en finkornig kvantiseringsstrategi, som gör det möjligt att effektivt använda E4M3-formatet i alla träningsstadier. Till skillnad från tidigare ramar som använde hybrid FP8-format (t.ex. E4M3 för framåtpasset och E5M2 för bakåtpasset) säkerställer Deepseek-V3: s strategi att aktiveringar grupperas och skalas på en 1x128-kakelbasis, medan vikterna skalas på en 128x128 block basis [1] [2]. Denna granularitet hjälper till att bättre hantera outliers genom att dynamiskt justera skalningsfaktorerna för varje grupp, vilket mildrar effekterna av begränsat dynamiskt intervall som ligger i FP8 -format [3].

Dynamisk skalning och online -kvantisering

Modellen använder online -kvantisering, där skalningsfaktorer beräknas dynamiskt för varje aktiveringskakel eller viktblock under träning. Detta eliminerar behovet av att upprätthålla historiska maximivärden, förenkla ramverket och förbättra noggrannheten [1] [2]. Genom att dynamiskt justera dessa skalningsfaktorer kan DeepSeek-V3 optimera användningen av de tillgängliga FP8-nummerrepresentationsskoporna, vilket säkerställer att de flesta värden inte är klusterade inom ett smalt intervall, vilket annars skulle leda till dålig precision för mindre värden [3].

reducerad minnesanvändning och beräkningskostnader

Det enhetliga E4M3-formatet, i kombination med finkornig kvantisering, minskar minnesanvändningen avsevärt. Genom att lagra aktiveringar och optimeringstillstånd i format med lägre precision (t.ex. FP8 för aktiveringar) minimerar Deepseek-V3 minneskraven, vilket är avgörande för storskaliga modeller [1] [5]. Dessutom minskar användningen av FP8 för viktiga beräkningar beräkningskostnader, eftersom det kräver att mindre data ska behandlas jämfört med högre precisionformat som FP16 eller FP32 [5].

Förbättrad numerisk stabilitet

Deepseek-V3 behandlar också frågan om numerisk precisionsförlust i samband med FP8-träning genom att främja partiella resultat till FP32-register med specifika intervall under ackumulering. Denna strategi mildrar fel som orsakas av den begränsade bitbreddansamlingen i tensorkärnor, vilket säkerställer numerisk stabilitet och tillförlitlig träning [1] [7].

Sammanfattningsvis förbättrar det enhetliga E4M3-formatet i DeepSeek-V3 effektiviteten genom att möjliggöra finkornig kvantisering, dynamisk skalning, minskad minnesanvändning och förbättrad numerisk stabilitet. Dessa innovationer gör det möjligt för Deepseek-V3 att uppnå modernaste prestanda och samtidigt optimera beräkningsresurser.

Citeringar:
]
[2] https://research.meekolab.com/deepseeks-low-nivå-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-technical-report.html
]
]
]