Precisione FP8 in DeepSeek-V3: migliorare l'efficienza e ridurre i costi nella formazione dell'IA

La precisione FP8 svolge un ruolo cruciale nel processo di formazione di DeepSeek-V3, migliorando significativamente l'efficienza e riducendo i costi computazionali. Ecco una spiegazione dettagliata del suo ruolo:

Introduzione alla precisione FP8

FP8 è un formato a punta mobile a 8 bit che offre una rappresentazione più compatta rispetto ai tradizionali formati a 16 o 32 bit. Questa compattezza si traduce in un utilizzo della memoria ridotto e un calcolo più rapido, rendendolo ideale per l'addestramento del modello AI su larga scala come DeepSeek-V3 [3] [5].

framework di precisione mista

DeepSeek-V3 impiega un framework di precisione mista, in cui diverse parti del modello utilizzano diversi livelli di precisione. La maggior parte delle operazioni ad alta intensità di calcolo, come la moltiplicazione della matrice generale (GEMM), vengono eseguite in FP8 per ottimizzare la velocità e l'utilizzo della memoria. Tuttavia, alcune operazioni che richiedono una maggiore precisione, come il modulo di incorporamento, la testa di uscita, i moduli di gating moe, gli operatori di normalizzazione e gli operatori di attenzione, sono mantenute in formati di precisione più elevati (FP16 o FP32) per mantenere l'accuratezza [1] [5].

Quantizzazione a grana fine

Per affrontare le sfide della gamma dinamica limitata di FP8, DeepSeek-V3 introduce una strategia di quantizzazione a grana fine. Ciò comporta il raggruppamento delle attivazioni in piastrelle 1x128 e pesi in blocchi 128x128, ciascuno in scala indipendente. Questo approccio impedisce ai valori estremi di distorcere l'intero tensore, ridurre gli errori di quantizzazione e mantenere l'accuratezza del modello [1] [5].

quantizzazione online

DeepSeek-V3 utilizza la quantizzazione online, in cui i fattori di ridimensionamento vengono calcolati dinamicamente per ciascuna piastrella di attivazione o blocco di peso durante l'allenamento. Ciò elimina la necessità di metodi di quantizzazione ritardata che si basano sui valori massimi storici, semplificando il framework e migliorando l'accuratezza [1] [5].

aumento della precisione dell'accumulo

Per mitigare gli errori causati dalla precisione di accumulo limitato di FP8 nei nuclei di tensore, DeepSeek-V3 promuove i risultati parziali ai registri FP32 a intervalli specifici durante le operazioni GEMM. Ciò garantisce che l'accumulo di piccoli errori sia ridotto al minimo, mantenendo l'accuratezza complessiva del modello [1] [5].

formato E4M3 unificato

A differenza dei precedenti framework che utilizzavano i formati ibridi FP8 (ad es. E4M3 per il passaggio in avanti e E5M2 per il passaggio all'indietro), DeepSeek-V3 adotta universalmente il formato E4M3. Ciò è reso possibile dalla sua strategia di quantizzazione a grana fine, che condivide efficacemente bit esponenti tra elementi raggruppati, mantenendo la precisione su tutti i calcoli [1] [5].

Impatto sull'efficienza della formazione

L'uso della precisione FP8 accelera significativamente il processo di formazione di DeepSeek-V3. Il modello è stato addestrato utilizzando un data center di 2048 GPU in appena due mesi, richiedendo solo 2,664 milioni di ore GPU H800 per il pre-allenamento e altre 0,1 milioni di ore GPU per le fasi successive. Questa efficienza è attribuita al consumo di memoria ridotto e all'aumento della velocità computazionale offerta da FP8 [3] [6].

In sintesi, la precisione di FP8 in DeepSeek-V3 è cruciale per raggiungere un'elevata efficienza di allenamento mantenendo l'accuratezza del modello. È attentamente integrato in un framework di precisione mista, sfruttando la quantizzazione a grana fine e la quantizzazione online per mitigare i limiti di FP8.

Citazioni:
[1] https://community.aws/content/2rjj1wztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai- revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-imodel-on -a --lot-less-and-scripled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-bit-floating-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.cofrox-intl.com/deepseek-r1-and-fp8-mixed-precision-training/

Puoi spiegare il ruolo della precisione FP8 nel processo di formazione di DeepSeek-V3