Vantaggi di FP8 per le operazioni GEMM in DeepSeek-V3

L'uso di operazioni di moltiplicazione della matrice di matrice (GEMM) di FP8 (GEMM) in DeepSeek-V3 offre diversi vantaggi significativi, principalmente in termini di efficienza computazionale e risparmio di memoria. Ecco i vantaggi dettagliati:

1. Efficienza di calcolo: le operazioni FP8 forniscono un sostanziale aumento della velocità computazionale rispetto alle operazioni tradizionali FP16 o FP32. In particolare, i nuclei di tensore di Nvidia possono eseguire operazioni GEMM FP8 al doppio della velocità di FP16, che accelera il processo di addestramento complessivo di modelli su larga scala come DeepSeek-V3 [3] [4].

2. Risparmio di memoria: l'uso di FP8 riduce i requisiti di memoria della metà rispetto a BF16, consentendo di addestrare modelli più grandi e più profondi all'interno degli stessi vincoli hardware. Ciò è particolarmente vantaggioso per i modelli che richiedono ampie risorse di memoria, consentendo di sviluppare modelli più complessi senza aver bisogno di hardware aggiuntivo [3] [6].

3. Comunicazione efficiente: negli ambienti di formazione distribuita, FP8 riduce la larghezza di banda richiesta per il trasferimento di dati tra le GPU, che migliora l'efficienza di sincronizzazione e riduce le spese generali di comunicazione. Questo è cruciale per i modelli di intelligenza artificiale su larga scala che spesso si basano su configurazioni di calcolo distribuite [3].

4. Quantizzazione a grana fine: DeepSeek-V3 impiega una strategia di quantizzazione a grana fine per affrontare le sfide poste dalla gamma dinamica limitata di FP8. Ciò comporta un raggruppamento di elementi in piastrelle o blocchi più piccoli e ridimensionarli in modo indipendente, il che aiuta a gestire meglio i valori anomali e a mantenere la stabilità numerica [1] [2].

5. Aumento della precisione dell'accumulo: per mitigare gli errori causati dall'accumulo limitato della larghezza di bit nei nuclei di tensore, DeepEek-V3 promuove i risultati parziali ai registri FP32 a intervalli specifici durante l'accumulo. Ciò migliora la precisione delle operazioni GEMM di FP8, garantendo che i benefici di FP8 siano realizzati senza compromettere l'accuratezza [1].

6. Formato E4M3 unificato: a differenza degli approcci precedenti che utilizzavano formati ibridi FP8, DeepSeek-V3 adotta universalmente il formato E4M3. Ciò è facilitato dalla sua strategia di quantizzazione a grana fine, che condivide efficacemente bit esponenti tra elementi raggruppati, semplificando il quadro e migliorando l'accuratezza [1].

7. Quantizzazione online: il modello calcola i fattori di ridimensionamento dinamicamente per ciascuna piastrella di attivazione o blocco di peso durante l'allenamento, eliminando la necessità di metodi di quantizzazione ritardata. Ciò semplifica il framework e migliora l'accuratezza adattandosi alle caratteristiche dei dati in tempo reale [1].

8. Supporto ottimizzato della libreria: lo sviluppo di DeepGemm, una libreria GEMM FP8 ottimizzata, migliora ulteriormente l'efficienza delle operazioni FP8 in DeepSeek-V3. DeepGemm supporta architetture sia dense che MOE, garantendo efficienti calcoli a matrice che sono fondamentali per i modelli di intelligenza artificiale su larga scala [4] [7]. Utilizza la compilation just-in-time (JIT) e il ridimensionamento a grana fine per mantenere l'efficienza computazionale minimizzando la perdita di precisione [4] [5].

Citazioni:
[1] https://community.aws/content/2rjj1wztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://machinelearningatascale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://blog.aitoolhouse.com/deepseek-ai-releases-deepgemm-an-optimized-fp8-gemm-for-dense-and-moe-computation/
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemmm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-drops-deepgemm-anfp8-ghemm-library-that-powers-v3-and-r1-oi-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722

Quali sono i vantaggi dell'utilizzo di FP8 per le operazioni GEMM in DeepSeek-V3