FP8 (8 bitų plūduriuojančio taško) naudojimas bendrosios matricos daugybos (GEMM) operacijoms „Deepseeek-V3“ siūlo keletą reikšmingų privalumų, visų pirma skaičiavimo efektyvumo ir atminties taupymo prasme. Čia yra išsamūs pranašumai:
1. Skaičiavimo efektyvumas: FP8 operacijos žymiai padidina skaičiavimo greitį, palyginti su tradicinėmis FP16 arba FP32 operacijomis. Tiksliau, NVIDIA „Tensor“ šerdys gali atlikti FP8 GEMM operacijas dvigubai didesniu FP16 greičiu, kuris pagreitina bendrą didelio masto modelių, tokių kaip „Deepseee-V3“ [3] [4], treniruočių procesą.
2. Atminties taupymas: Naudojant FP8 sumažina atminties reikalavimus perpus, palyginti su BF16, leidžiant mokyti didesnius ir gilesnius modelius tose pačiose aparatinės įrangos apribojimuose. Tai ypač naudinga modeliams, kuriems reikalingi dideli atminties ištekliai, todėl sudėtingesni modeliai gali būti sukurti nereikalaujant papildomos aparatinės įrangos [3] [6].
3. Efektyvus ryšys: Paskirstytoje mokymo aplinkoje FP8 sumažina pralaidumą, reikalingą duomenų perdavimui tarp GPU, o tai pagerina sinchronizacijos efektyvumą ir sumažina komunikacijos pridėtines išlaidas. Tai labai svarbu didelio masto AI modeliams, kurie dažnai priklauso nuo paskirstytų skaičiavimo sąrankų [3].
4. Smulkiagrūdis kvantizavimas: „Deepseeek-V3“ naudojama smulkiagrūdis kvantizavimo strategija, skirta spręsti iššūkius, kuriuos kelia ribotas FP8 dinaminis diapazonas. Tai apima elementų grupavimą į mažesnes plyteles ar blokus ir savarankiškai mastelio keitimą, o tai padeda geriau tvarkyti pašalinius dalykus ir išlaikyti skaitmeninį stabilumą [1] [2].
5. Padidėjęs kaupimosi tikslumas: Norėdami sušvelninti klaidas, kurias sukelia ribotas bitų pločio kaupimasis tenzorinėse šerdyse, „DeepSeeek-V3“ skatina dalinius FP32 registrų rezultatus tam tikru intervalu kaupimo metu. Tai padidina FP8 GEMM operacijų tikslumą, užtikrinant, kad FP8 nauda būtų įgyvendinta nepakenkiant tikslumui [1].
6. Vieningas E4M3 formatas: Skirtingai nuo ankstesnių metodų, kurie naudojo hibridinius FP8 formatus, „Deepseek-V3“ visuotinai priima E4M3 formatą. Tai palengvina jos smulkiagrūdis kvantizavimo strategija, kuri efektyviai dalijasi eksponentų BIT tarp sugrupuotų elementų, supaprastina sistemą ir pagerina tikslumą [1].
7. Internetinis kiekybinis nustatymas: modelis dinamiškai apskaičiuoja mastelio keitimo faktorius kiekvienoje aktyvacijos plytelėje ar svorio bloke treniruotės metu, pašalindamas atidėto kvantizavimo metodų poreikį. Tai supaprastina sistemą ir pagerina tikslumą, pritaikant realaus laiko duomenų charakteristikas [1].
8. Optimizuota bibliotekos palaikymas: „DeepGEMM“, optimizuotos FP8 GEMM bibliotekos kūrimas, dar labiau padidina FP8 operacijų efektyvumą „Deepseek-V3“. „DeepGEMM“ palaiko ir tankią, ir MOE architektūrą, užtikrinant efektyvius matricos skaičiavimus, kurie yra labai svarbūs didelio masto AI modeliams [4] [7]. Jis naudoja „Just-in-in-in-in-in-in-in-in-in-in-in“ kompiliaciją ir smulkiagrūdį mastelį, kad būtų išlaikytas skaičiavimo efektyvumas, tuo pačiu sumažinant tikslų praradimą [4] [5].
Citatos:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-akeaways-from-deepseek-v3?lang=en
[2] https://machinelarningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architcture
[4] https://blog.aitoolhouse.com/deepseek-ai-releases-deepgemm-an-optimed-fp8-gemm-library-for tankiai ir moe-computation/
]
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-library-that-powers-v3-and-r1- ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722