Beneficiile FP8 pentru operațiunile GEMM în Deepseek-V3

Utilizarea FP8 (punct flotant pe 8 biți) pentru operațiunile generale de înmulțire a matricei (GEMM) în Deepseek-V3 oferă mai multe beneficii semnificative, în principal în ceea ce privește eficiența calculațională și economiile de memorie. Iată avantajele detaliate:

1. Eficiența calculului: operațiunile FP8 oferă o creștere substanțială a vitezei de calcul în comparație cu operațiunile tradiționale FP16 sau FP32. Mai exact, miezurile de tensiune ale NVIDIA pot efectua operațiuni FP8 GEMM la două ori mai mari decât viteza FP16, ceea ce accelerează procesul general de antrenament al modelelor pe scară largă precum Deepseek-V3 [3] [4].

2. Economii de memorie: Utilizarea FP8 reduce cerințele de memorie la jumătate comparativ cu BF16, permițând instruirea modelelor mai mari și mai profunde în cadrul acelorași constrângeri hardware. Acest lucru este deosebit de benefic pentru modelele care necesită resurse de memorie extinse, permițând dezvoltarea unor modele mai complexe, fără a avea nevoie de hardware suplimentar [3] [6].

3. Comunicare eficientă: În mediile de instruire distribuite, FP8 reduce lățimea de bandă necesară pentru transferul de date între GPU, ceea ce îmbunătățește eficiența de sincronizare și reduce comunicarea cheltuielile generale. Acest lucru este crucial pentru modelele AI la scară largă care se bazează adesea pe configurații de calcul distribuite [3].

4. Cuantificare cu granulație fină: Deepseek-V3 folosește o strategie de cuantificare cu granulație fină pentru a aborda provocările prezentate de intervalul dinamic limitat al FP8. Aceasta implică gruparea elementelor în plăci sau blocuri mai mici și scalarea lor în mod independent, ceea ce ajută la o mai bună manipulare a valorilor exterioare și la menținerea stabilității numerice [1] [2].

5. Precizie crescută a acumulării: pentru a atenua erorile cauzate de acumularea limitată a lățimii de biți în nucleele tensiunii, Deepseek-V3 promovează rezultate parțiale la registrele FP32 la intervale specifice în timpul acumulării. Acest lucru îmbunătățește precizia operațiunilor FP8 GEMM, asigurându -se că beneficiile FP8 sunt realizate fără a compromite precizia [1].

6. Format E4M3 unificat: Spre deosebire de abordările anterioare care au folosit formate hibride FP8, Deepseek-V3 adoptă în mod universal formatul E4M3. Acest lucru este facilitat de strategia sa de cuantificare cu granulație fină, care împărtășește efectiv biți de exponenți între elementele grupate, simplificând cadrul și îmbunătățind precizia [1].

7. Cuantificarea online: modelul calculează dinamic factorii de scalare pentru fiecare țiglă de activare sau bloc de greutate în timpul antrenamentului, eliminând nevoia de metode de cuantificare întârziate. Acest lucru simplifică cadrul și îmbunătățește precizia prin adaptarea la caracteristicile datelor în timp real [1].

8. Suport de bibliotecă optimizat: Dezvoltarea DeepGEMM, o bibliotecă GEMM FP8 optimizată, îmbunătățește în continuare eficiența operațiunilor FP8 în Deepseek-V3. Deepgemm acceptă atât arhitecturi dense, cât și MOE, asigurând calcule eficiente ale matricei care sunt critice pentru modelele AI la scară largă [4] [7]. Utilizează compilarea în timp (JIT) și scalarea cu granulație fină pentru a menține eficiența computațională, reducând în același timp pierderea de precizie [4] [5].

Citări:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
]
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-library-that-powers-v3-and-r1-ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722

Care sunt avantajele utilizării FP8 pentru operațiunile GEMM în Deepseek-V3