FP8 precizitāte DeepSEEK-V3: efektivitātes uzlabošana un izmaksu samazināšana AI apmācībā

FP8 precizitātei ir izšķiroša loma DeepSEEK-V3 apmācības procesā, ievērojami uzlabojot efektivitāti un samazinot skaitļošanas izmaksas. Šeit ir detalizēts tās lomas skaidrojums:

Ievads FP8 precizitātē

FP8 ir 8 bitu peldošā punkta formāts, kas piedāvā kompaktu attēlojumu, salīdzinot ar tradicionālajiem 16 bitu vai 32 bitu formātiem. Šī kompaktuma rezultātā tiek samazināta atmiņas izmantošana un ātrāka aprēķināšana, padarot to ideālu liela mēroga AI modeļa apmācībai, piemēram, DeepSEEK-V3 [3] [5].

Jaukts precizitātes ietvars

DeepSEEK-V3 izmanto jauktu precizitātes sistēmu, kurā dažādās modeļa daļās tiek izmantoti dažādi precizitātes līmeņi. Lai optimizētu ātruma un atmiņas izmantošanu, tiek veiktas visvairāk aprēķinātās operācijas, piemēram, vispārējā matricas reizināšana (GEMM). Tomēr noteiktas operācijas, kurām nepieciešama augstāka precizitāte, piemēram, iegulšanas modulis, izejas galva, MOE vārtu moduļi, normalizācijas operatori un uzmanības operatori, tiek turēti augstākā precizitātes formātā (FP16 vai FP32), lai saglabātu precizitāti [1] [5].

smalkgraudainas kvantēšana

Lai risinātu FP8 ierobežotā dinamiskā diapazona izaicinājumus, DeepSEEK-V3 ievieš smalkgraudainu kvantēšanas stratēģiju. Tas ietver aktivizācijas grupēšanu 1x128 flīzēs un svaros 128x128 blokos, katrs no tiem ir mērogots neatkarīgi. Šī pieeja neļauj ekstrēmām vērtībām izkropļot visu tensoru, samazināt kvantēšanas kļūdas un saglabāt modeļa precizitāti [1] [5].

Tiešsaistes kvantēšana

DeepSEEK-V3 izmanto tiešsaistes kvantēšanu, kur mērogošanas koeficienti tiek dinamiski aprēķināti katram aktivizācijas flīžu vai svara blokam apmācības laikā. Tas novērš nepieciešamību pēc aizkavētām kvantēšanas metodēm, kas balstās uz vēsturiskām maksimālajām vērtībām, vienkāršojot sistēmu un uzlabojot precizitāti [1] [5].

palielināta uzkrāšanās precizitāte

Lai mazinātu kļūdas, ko izraisa FP8 ierobežotā uzkrāšanās precizitāte tensora kodolos, DeepSEEK-V3 veicina daļējus rezultātus FP32 reģistriem ar īpašiem intervāliem GEMM operāciju laikā. Tas nodrošina, ka mazu kļūdu uzkrāšanās tiek samazināta līdz minimumam, saglabājot modeļa vispārējo precizitāti [1] [5].

Vienotais E4M3 formāts

Atšķirībā no iepriekšējiem ietvariem, kas izmantoja hibrīdus FP8 formātus (piemēram, E4M3 priekšējai caurlaidei un E5M2 atpalikušai caurlaidei), DeepSeek-V3 vispārēji izmanto E4M3 formātu. To padara iespējams ar tās smalkgraudainās kvantēšanas stratēģiju, kas efektīvi dalās ar eksponentu bitiem starp grupētiem elementiem, saglabājot precizitāti visos aprēķinos [1] [5].

Ietekme uz apmācības efektivitāti

FP8 precizitātes izmantošana ievērojami paātrina DeepSEEK-V3 apmācības procesu. Modelis tika apmācīts, izmantojot 2048 GPU datu centru tikai aptuveni divu mēnešu laikā, pirms apmācības bija nepieciešami tikai 2,664 miljoni H800 GPU stundu un nākamajiem posmiem papildu 0,1 miljons GPU stundu. Šī efektivitāte tiek attiecināta uz samazinātu atmiņas patēriņu un palielinātu skaitļošanas ātrumu, ko piedāvā FP8 [3] [6].

Rezumējot, FP8 precizitāte DeepSEEK-V3 ir būtiska, lai sasniegtu augstas apmācības efektivitāti, vienlaikus saglabājot modeļa precizitāti. Tas ir rūpīgi integrēts jauktā precizitātes ietvarā, izmantojot smalkgraudainas kvantēšanas un tiešsaistes kvantitatīvu, lai mazinātu FP8 ierobežojumus.

Atsauces:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-uniqueweaway
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
.
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-fp8-mixed-precision-moraining/

Vai jūs varat izskaidrot FP8 precizitātes lomu DeepSEEK-V3 apmācības procesā