Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Ar galite paaiškinti FP8 tikslumo vaidmenį „Deepseeek-V3“ mokymo procese


Ar galite paaiškinti FP8 tikslumo vaidmenį „Deepseeek-V3“ mokymo procese


„FP8 Precision“ vaidina lemiamą vaidmenį „Deepseeek-V3“ mokymo procese, žymiai padidindamas efektyvumą ir sumažinant skaičiavimo išlaidas. Štai išsamus jo vaidmens paaiškinimas:

Įvadas į FP8 tikslumą

FP8 yra 8 bitų plūduriuojančio taško formatas, siūlantis kompaktiškesnį vaizdą, palyginti su tradiciniais 16 bitų arba 32 bitų formatais. Šis kompaktiškumas lemia sumažėjusį atminties naudojimą ir greitesnį skaičiavimą, todėl jis yra idealus didelio masto AI modelio treniruotėms, tokioms kaip „Deepseek-V3“ [3] [5].

Mišrus tikslumo sistema

„Deepseek-V3“ naudojama mišrios tikslumo sistema, kai skirtingose ​​modelio dalyse naudojamos skirtingos tikslumo lygiai. Dauguma skaičiavimo reikalaujančių operacijų, tokių kaip bendras matricos daugyba (GEMM), atliekamos FP8, siekiant optimizuoti greičio ir atminties naudojimą. Tačiau tam tikros operacijos, kurioms reikalingas didesnis tikslumas, pavyzdžiui, įterpimo modulis, išvesties galvutė, MOE vartų moduliai, normalizavimo operatoriai ir dėmesio operatoriai, yra laikomos aukštesnio tikslumo formatais (FP16 arba FP32), kad būtų išlaikytas tikslumas [1] [5].

smulkiagrūdis kvantizavimas

Siekdama išspręsti riboto FP8 dinaminio diapazono iššūkius, „Deepseeek-V3“ pristato smulkiagrūdį kvantizavimo strategiją. Tai reiškia, kad įjungimas į 1x128 plyteles ir svorius yra suskirstyti į 128x128 blokus, kiekvienas iš jų mastelio mastelio savarankiškai. Šis metodas neleidžia ekstremalioms vertėms iškraipyti viso tenzoriaus, sumažinti kvantizavimo klaidas ir išlaikyti modelio tikslumą [1] [5].

Online Quantalization

„Deepseek-V3“ naudoja internetinį kiekybinį nustatymą, kai mokymo metu dinamiškai apskaičiuojami kiekvienos aktyvacijos plytelės ar svorio bloko mastelio keitimo faktoriai. Tai pašalina uždelstų kvantizavimo metodų, pagrįstų istorinėmis maksimaliomis vertėmis, poreikį, supaprastina sistemą ir pagerina tikslumą [1] [5].

padidėjęs kaupimosi tikslumas

Siekdamas sušvelninti klaidas, kurias sukelia ribotas FP8 kaupimosi tikslumas tensorinių šerdyse, „Deepseeek-V3“ skatina dalinius FP32 registrų rezultatus specifiniais intervalais GEMM operacijų metu. Tai užtikrina, kad būtų sumažinta mažų klaidų kaupimasis, išlaikant bendrą modelio tikslumą [1] [5].

Vieningas E4M3 formatas

Skirtingai nuo ankstesnių rėmų, kurie naudojo hibridinius FP8 formatus (pvz., E4M3, skirtas priekiniam leidimui ir E5M2, atsilikusiam leidimui), „Deepseek-V3“ visuotinai priima E4M3 formatą. Tai įgalina jos smulkiagrūdis kvantizavimo strategija, kuri efektyviai dalijasi eksponentų BIT tarp sugrupuotų elementų, išlaikant tikslumą visuose skaičiavimuose [1] [5].

Poveikis mokymo efektyvumui

FP8 tikslumo naudojimas žymiai pagreitina „Deepseeek-V3“ treniruočių procesą. Modelis buvo apmokytas naudojant 2048 GPU duomenų centrą per maždaug du mėnesius, jam reikėjo tik 2,664 mln. Šis efektyvumas yra susijęs su sumažėjusiu atminties sunaudojimu ir padidėjusiu skaičiavimo greičiu, kurį siūlo FP8 [3] [6].

Apibendrinant galima pasakyti, kad FP8 tikslumas „Deepseek-V3“ yra labai svarbus norint pasiekti aukštą treniruočių efektyvumą išlaikant modelio tikslumą. Jis kruopščiai integruotas į mišrią tikslumo sistemą, panaudojant smulkiagrūdį kiekybinį kiekį ir kiekybiškai įvertinant internetinį kiekį, siekiant sušvelninti FP8 apribojimus.

Citatos:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-akeaways-from-deepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-ource-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-dids-deepseek-train-its-ai-model-on-a-lot-less-and-oppled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-floating-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-interl.com/deepseek-r1-and-fp8-Mixed-precision-raining/