FP8 priekšrocības GEMM operācijās DeepSeek-V3

FP8 (8 bitu peldošā punkta) izmantošana vispārējās matricas reizināšanas (GEMM) operācijās DeepSEEK-V3 piedāvā vairākas nozīmīgas priekšrocības, galvenokārt attiecībā uz skaitļošanas efektivitāti un atmiņas ietaupījumiem. Šeit ir detalizētas priekšrocības:

1. Aprēķina efektivitāte: FP8 operācijas nodrošina ievērojamu skaitļošanas ātruma palielināšanos, salīdzinot ar tradicionālajām FP16 vai FP32 operācijām. Konkrēti, NVIDIA tensora serdeņi var veikt FP8 GEMM operācijas ar divreiz lielāku FP16 ātrumu, kas paātrina kopējo liela mēroga modeļu apmācības procesu, piemēram, DeepSeek-V3 [3] [4].

2. Atmiņas ietaupījumi: FP8 izmantošana samazina atmiņas prasības uz pusi salīdzinājumā ar BF16, ļaujot apmācīt lielākus un dziļākus modeļus tādos pašos aparatūras ierobežojumos. Tas ir īpaši izdevīgi modeļiem, kuriem nepieciešami plaši atmiņas resursi, ļaujot izstrādāt sarežģītākus modeļus, neprasot papildu aparatūru [3] [6].

3. Efektīva komunikācija: Izplatītā apmācības vidē FP8 samazina joslas platumu, kas nepieciešams datu pārsūtīšanai starp GPU, kas uzlabo sinhronizācijas efektivitāti un samazina komunikācijas pieskaitāmās izmaksas. Tas ir ļoti svarīgi liela mēroga AI modeļiem, kas bieži paļaujas uz sadalītām skaitļošanas iestatījumiem [3].

4. Smalkgraudainas kvantēšana: DeepSEEK-V3 izmanto smalkgraudainas kvantēšanas stratēģiju, lai risinātu izaicinājumus, ko rada FP8 ierobežotā dinamiskā diapazons. Tas ietver elementu grupēšanu mazākās flīzēs vai blokos un to mērogošanu patstāvīgi, kas palīdz labāk apstrādāt novirzes un saglabāt skaitlisko stabilitāti [1] [2].

5. Paaugstināta uzkrāšanās precizitāte: lai mazinātu kļūdas, ko rada ierobežotā bitu platuma uzkrāšanās tenzora kodolos, DeepSEEK-V3 veicina daļējus rezultātus līdz FP32 reģistriem ar īpašiem intervāliem uzkrāšanās laikā. Tas uzlabo FP8 GEMM operāciju precizitāti, nodrošinot, ka FP8 ieguvumi tiek realizēti, neapdraudot precizitāti [1].

6. Vienotais E4M3 formāts: Atšķirībā no iepriekšējām pieejām, kas izmantoja hibrīda FP8 formātus, DeepSeek-V3 vispārīgi izmanto E4M3 formātu. To atvieglo tā smalkgraudainās kvantēšanas stratēģija, kas efektīvi dalās ar eksponentu bitiem starp sagrupētajiem elementiem, vienkāršojot ietvaru un uzlabojot precizitāti [1].

7. Tiešsaistes kvantēšana: modelis apmācības laikā dinamiski aprēķina mērogošanas koeficientus katram aktivizācijas flīzes vai svara blokam, novēršot nepieciešamību pēc aizkavētām kvantēšanas metodēm. Tas vienkāršo ietvaru un uzlabo precizitāti, pielāgojoties reālā laika datu raksturlielumiem [1].

8. Optimizēts bibliotēkas atbalsts: optimizēta FP8 GEMM bibliotēkas DeepGemm attīstība vēl vairāk uzlabo FP8 operāciju efektivitāti DeepSEEK-V3. Deepgemm atbalsta gan blīvas, gan MOE arhitektūras, nodrošinot efektīvus matricas aprēķinus, kas ir kritiski svarīgi liela mēroga AI modeļiem [4] [7]. Tas izmanto tikai laika (JIT) kompilāciju un smalkgraudainu mērogošanu, lai saglabātu skaitļošanas efektivitāti, vienlaikus samazinot precizitātes zudumus [4] [5].

Atsauces:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-uniqueweaway
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
.
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-bibrary-that-powers-v3-andr1-ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722

Kādas ir FP8 izmantošanas priekšrocības GEMM operācijās DeepSeek-V3