FP8 täpsus Deepseek-V3-s: tõhususe suurendamine ja kulude vähendamine AI koolitusel

Kas saate selgitada FP8 täpsuse rolli DeepSEEEK-V3 koolitusprotsessis

FP8 Precision mängib üliolulist rolli DeepSEEK-V3 koolitusprotsessis, suurendades märkimisväärselt tõhusust ja vähendades arvutuskulusid. Siin on selle rolli üksikasjalik seletus:

Sissejuhatus FP8 täpsusesse

FP8 on 8-bitine ujukoma vorming, mis pakub kompaktsemat esitust võrreldes traditsioonilise 16-bitise või 32-bitise vorminguga. Selle kompaktsuse tulemuseks on vähenenud mälu kasutamine ja kiirem arvutamine, muutes selle ideaalseks suuremahuliseks AI-mudeliõppeks nagu Deepseek-V3 [3] [5].

Segatud täppisraamistik

Deepseek-V3 kasutab segatud täpsuse raamistikku, kus mudeli erinevad osad kasutavad erinevaid täpsustaset. Kiiruse ja mälu kasutamise optimeerimiseks tehakse FP8-s kõige arvutusmahukaid toiminguid, näiteks maatriksi üldkorrutamine (GEMM). Kuid teatud toiminguid, mis nõuavad suuremat täpsust, nagu manustamismoodul, väljundpea, moe väravamoodulid, normaliseerimisoperaatorid ja tähelepanuoperaatorid, hoitakse täpsuse säilitamiseks kõrgema täpsuse vormingutes (FP16 või FP32) [1] [5].

peeneteraline kvantimine

FP8 piiratud dünaamilise ulatuse väljakutsetega tegelemiseks tutvustab Deepseek-V3 peeneteralise kvantimisstrateegia. See hõlmab aktiveerimiste rühmitamist 1x128 plaatideks ja kaaliteks 128x128 plokki, millest igaüks on iseseisvalt skaleeritud. See lähenemisviis takistab äärmuslikke väärtusi kogu tenso moonutamisest, kvantimisvigade vähendamisest ja mudeli täpsuse säilitamisest [1] [5].

Online kvantifitseerimine

Deepseek-V3 kasutab veebipõhist kvantimist, kus iga treenimise ajal arvutatakse iga aktiveerimisplaadi või kaaluploki jaoks dünaamiliselt skaleerimistegurid. See välistab vajaduse hilinenud kvantimismeetodite järele, mis tuginevad ajaloolistele maksimaalsetele väärtustele, lihtsustades raamistikku ja parandades täpsust [1] [5].

Suurenenud akumulatsiooni täpsus

FP8 piiratud akumulatsiooni täpsusest tensor-südamike põhjustatud vigade leevendamiseks soodustab Deepseek-V3 FP32 registrite osalisi tulemusi konkreetsete intervallidega GEMM-i operatsioonide ajal. See tagab väikeste vigade kogunemise minimeerimise, säilitades mudeli üldise täpsuse [1] [5].

Ühendatud E4M3 vorming

Erinevalt varasematest raamistikest, mis kasutasid hübriid FP8-vorminguid (nt E4M3 edasiliikumiseks ja E5M2 tagurpidi passi jaoks), võtab Deepseek-V3 universaalselt vastu E4M3 vormingu. Selle võimaldab selle peeneteralise kvantimisstrateegia abil, mis jagab tegelikult grupeeritud elementide vahel eksponendi bitte, säilitades täpsuse kõigi arvutuste vahel [1] [5].

Mõju koolituse tõhususele

FP8 täpsuse kasutamine kiirendab oluliselt DeepSEEK-V3 treeningprotsessi. Mudelit koolitati umbes kahe kuu jooksul 2048 GPU-dega andmekeskuse abil, mis nõudis koolitamiseks vaid 2,664 miljonit H800 GPU tundi ja järgnevate etappide jaoks veel 0,1 miljonit GPU tundi. See efektiivsus on tingitud vähendatud mälu tarbimisest ja suurenenud arvutuskiirusest, mida pakub FP8 [3] [6].

Kokkuvõtlikult võib öelda, et FP8 täpsus DeepSEEK-V3-s on kõrge treeningu efektiivsuse saavutamiseks ülioluline, säilitades samal ajal mudeli täpsuse. See on hoolikalt integreeritud segatud täpsuse raamistikku, võimendades peeneteralise kvantimise ja veebipõhise kvantimise, et leevendada FP8 piiranguid.

Tsitaadid:
]
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-oken-source-ai-revolution
]
]
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
]