Použitie operácií FP8 (8-bitovej pohyblivej polohy) pre všeobecné násobenie matrice (GEMM) v DeepSEEK-V3 ponúka niekoľko významných výhod, predovšetkým z hľadiska výpočtovej účinnosti a úspory pamäte. Tu sú podrobné výhody:
1. Výpočná účinnosť: Operácie FP8 poskytujú podstatné zvýšenie výpočtovej rýchlosti v porovnaní s tradičnými operáciami FP16 alebo FP32. Konkrétne, tenzorové jadrá spoločnosti NVIDIA môžu vykonávať operácie FP8 GEMM pri dvojnásobnej rýchlosti FP16, čo urýchľuje celkový tréningový proces rozsiahlych modelov, ako je DeepSEEK-V3 [3] [4].
2. Úspora pamäte: Použitie FP8 znižuje požiadavky na pamäť o polovicu v porovnaní s BF16, čo umožňuje vyškoliť väčšie a hlbšie modely v rámci rovnakých hardvérových obmedzení. Toto je obzvlášť prospešné pre modely, ktoré si vyžadujú rozsiahle zdroje pamäte, čo umožňuje vyvíjať zložitejšie modely bez potreby ďalšieho hardvéru [3] [6].
3. Efektívna komunikácia: V distribuovaných tréningových prostrediach FP8 znižuje šírku pásma potrebnej na prenos údajov medzi GPU, čo zlepšuje účinnosť synchronizácie a znižuje režijné náklady na komunikáciu. To je rozhodujúce pre rozsiahle modely AI, ktoré sa často spoliehajú na distribuované výpočtové nastavenia [3].
4. Jemnozrnná kvantizácia: Deepseek-V3 používa jemnozrnnú kvantizačnú stratégiu na riešenie problémov, ktoré predstavuje obmedzený dynamický rozsah FP8. Zahŕňa to zoskupovanie prvkov do menších dlaždíc alebo blokov a ich nezávisle škálovanie, čo pomáha pri lepšom manipulácii s odľahlými hodnotami a udržiavaním numerickej stability [1] [2].
9 To zvyšuje presnosť operácií FP8 GEMM, čím sa zabezpečuje, že výhody FP8 sa realizujú bez ohrozenia presnosti [1].
6. Unifikovaný formát E4M3: Na rozdiel od predchádzajúcich prístupov, ktoré používali hybridné formáty FP8, DeepSEEK-V3 prijíma formát E4M3 všeobecne. Uľahčuje to jeho jemnozrnná kvantizačná stratégia, ktorá účinne zdieľa exponenty bity medzi zoskupenými prvkami, zjednodušuje rámec a zlepšuje presnosť [1].
7. Kvantizácia online: Model počas tréningu dynamicky vypočíta faktory škálovania pre každú aktivačnú dlaždicu alebo hmotnostný blok, čím sa eliminuje potreba oneskorených kvantizačných metód. Toto zjednodušuje rámec a zlepšuje presnosť prispôsobením sa charakteristikám údajov v reálnom čase [1].
8. Optimalizovaná podpora knižnice: Vývoj DeepGemm, optimalizovanej knižnice FP8 GEMM, ďalej zvyšuje účinnosť operácií FP8 v Deepseek-V3. DeepGemm podporuje husté aj architektúry MOE a zabezpečuje efektívne výpočty matrice, ktoré sú rozhodujúce pre rozsiahle modely AI [4] [7]. Využíva kompiláciu just-in-time (JIT) a jemnozrnné škálovanie na udržanie výpočtovej účinnosti a zároveň minimalizuje stratu presnosti [4] [5].
Citácie:
[1] https://community.aws/content/2rjj1wkztsfywvfSiibHwxeqmf1/four-unique-takaways-from-from-deepseek-v3?lang=en
[2] https://machinearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://blog.aitoolhouse.com/deepseek-ai-releases-deepgemm-an-optimaced-fp8-gemm-library-for-dense-and-moe-moe-computation/
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-library-that-powers-v3-and-rl-r1-ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722