FP8 Precision in Deepseek-V3: Verbetering van de efficiëntie en het verlagen van de kosten in AI-training

FP8 Precision speelt een cruciale rol in het trainingsproces van Deepseek-V3, waardoor de efficiëntie aanzienlijk wordt verbeterd en de rekenkosten wordt verlaagd. Hier is een gedetailleerde uitleg over zijn rol:

Inleiding tot FP8 Precision

FP8 is een 8-bit drijvende-komma-indeling die een meer compacte weergave biedt in vergelijking met traditionele 16-bit of 32-bits formaten. Deze compactheid resulteert in verminderd geheugengebruik en snellere berekening, waardoor het ideaal is voor grootschalige AI-modeltraining zoals Deepseek-V3 [3] [5].

gemengd precisiekader

Deepseek-V3 maakt gebruik van een gemengd precisiekader, waarbij verschillende delen van het model verschillende niveaus van precisie gebruiken. De meeste rekenintensieve bewerkingen, zoals algemene matrixvermenigvuldiging (GEMM), worden uitgevoerd in FP8 om snelheid en geheugengebruik te optimaliseren. Bepaalde bewerkingen die een hogere precisie vereisen, zoals de insluitingsmodule, uitgangskop, MOE -poortmodules, normalisatie -operators en aandachtsoperators, worden echter in hogere precisieformaten (FP16 of FP32) bewaard om de nauwkeurigheid te behouden [1] [5].

Fijnkorrelige kwantisatie

Om de uitdagingen van het beperkte dynamische bereik van FP8 aan te pakken, introduceert Deepseek-V3 een fijnkorrelige kwantisatiestrategie. Dit omvat het groeperen van activeringen in 1x128 tegels en gewichten in 128x128 -blokken, elk onafhankelijk geschaald. Deze benadering voorkomt dat extreme waarden de gehele tensor vervormen, het verminderen van kwantisatiefouten en het handhaven van modelnauwkeurigheid [1] [5].

Online kwantisatie

DeepSeek-V3 maakt gebruik van online kwantisatie, waarbij schaalfactoren dynamisch worden berekend voor elke activeringstegel of gewichtsblok tijdens de training. Dit elimineert de behoefte aan vertraagde kwantisatiemethoden die afhankelijk zijn van historische maximale waarden, waardoor het raamwerk wordt vereenvoudigd en de nauwkeurigheid wordt verbeterd [1] [5].

Verhoogde accumulatie precisie

Om fouten te beperken die worden veroorzaakt door de beperkte accumulatieprecisie van FP8 in tensorkernen, bevordert DeepSeek-V3 gedeeltelijke resultaten tot FP32-registers met specifieke intervallen tijdens GEMM-bewerkingen. Dit zorgt ervoor dat de accumulatie van kleine fouten wordt geminimaliseerd, waardoor de algehele nauwkeurigheid van het model [1] [5] wordt gehandhaafd.

Unified E4M3 -formaat

In tegenstelling tot eerdere frameworks die hybride FP8-formaten gebruikten (bijv. E4M3 voor de voorwaartse pas en E5M2 voor de achterwaartse pas), neemt Deepseek-V3 universeel het E4M3-formaat aan. Dit wordt mogelijk gemaakt door zijn fijnkorrelige kwantisatiestrategie, die effectief bits deelt tussen gegroepeerde elementen, waardoor precisie wordt gehandhaafd over alle berekeningen [1] [5].

impact op trainingsefficiëntie

Het gebruik van FP8-precisie versnelt het trainingsproces van Deepseek-V3 aanzienlijk. Het model werd getraind met behulp van een datacenter van 2048 GPU's in ongeveer twee maanden, wat slechts 2,664 miljoen H800 GPU-uren vereist voor pre-training en een extra 0,1 miljoen GPU-uren voor volgende fasen. Deze efficiëntie wordt toegeschreven aan het verminderde geheugenverbruik en de verhoogde rekensnelheid aangeboden door FP8 [3] [6].

Samenvattend is FP8-precisie in DeepSeek-V3 cruciaal voor het bereiken van hoge trainingsefficiëntie met behoud van de nauwkeurigheid van het model. Het is zorgvuldig geïntegreerd in een gemengd precisiekader, dat wordt gebruikt voor het benutten van fijnkorrelige kwantisatie en online kwantisatie om de beperkingen van FP8 te verminderen.

Citaten:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-it-it-ai-model-on-a-lot-less-and-criptpled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-inovations-8-bit-floating-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-fp8-mixed-precision-training/

Kun je de rol van FP8-precisie verklaren in het trainingsproces van Deepseek-V3