FP8 Precision in Deepseek-V3: Aumentando a eficiência e reduzindo os custos no treinamento de IA

O FP8 Precision desempenha um papel crucial no processo de treinamento do Deepseek-V3, aumentando significativamente a eficiência e reduzindo os custos computacionais. Aqui está uma explicação detalhada de seu papel:

Introdução à precisão do FP8

O FP8 é um formato de ponto flutuante de 8 bits que oferece uma representação mais compacta em comparação aos formatos tradicionais de 16 ou 32 bits. Essa compactação resulta em uso reduzido de memória e computação mais rápida, tornando-o ideal para treinamento de modelo de IA em larga escala, como Deepseek-V3 [3] [5].

estrutura de precisão mista

O Deepseek-V3 emprega uma estrutura de precisão mista, onde diferentes partes do modelo usam diferentes níveis de precisão. A maioria das operações intensivas em computação, como a Matriz Geral Matrix (GEMM), são realizadas no FP8 para otimizar a velocidade e o uso da memória. No entanto, certas operações que requerem maior precisão, como o módulo de incorporação, a cabeça de saída, os módulos de bloqueio Moe, os operadores de normalização e os operadores de atenção, são mantidos em formatos de precisão mais alta (FP16 ou FP32) para manter a precisão [1] [5].

Quantização de granulação fina

Para enfrentar os desafios da faixa dinâmica limitada do FP8, o Deepseek-V3 apresenta uma estratégia de quantização de granulação fina. Isso envolve agrupar ativações em ladrilhos e pesos 1x128 em blocos de 128x128, cada um escalado de forma independente. Essa abordagem impede que valores extremos distorçam todo o tensor, reduzindo erros de quantização e mantendo a precisão do modelo [1] [5].

quantização online

O Deepseek-V3 usa quantização on-line, onde os fatores de escala são calculados dinamicamente para cada ladrilho de ativação ou bloco de peso durante o treinamento. Isso elimina a necessidade de métodos de quantização atrasados que dependam de valores máximos históricos, simplificando a estrutura e melhorando a precisão [1] [5].

aumento da precisão de acumulação

Para mitigar os erros causados pela precisão limitada de acumulação do FP8 em núcleos tensores, o Deepseek-V3 promove resultados parciais para registros FP32 em intervalos específicos durante operações da GEMM. Isso garante que o acúmulo de pequenos erros seja minimizado, mantendo a precisão geral do modelo [1] [5].

formato e4m3 unificado

Diferentemente das estruturas anteriores que usavam formatos híbridos FP8 (por exemplo, E4M3 para o passe direto e E5M2 para o passe para trás), o Deepseek-V3 adota universalmente o formato E4M3. Isso é possível por sua estratégia de quantização de granulação fina, que compartilha efetivamente os bits de expoente entre os elementos agrupados, mantendo a precisão em todos os cálculos [1] [5].

Impacto na eficiência do treinamento

O uso da precisão do FP8 acelera significativamente o processo de treinamento do Deepseek-V3. O modelo foi treinado usando um data center de 2048 GPUs em apenas dois meses, exigindo apenas 2,664 milhões de horas de GPU de H800 para pré-treinamento e mais 0,1 milhão de horas de GPU para estágios subsequentes. Essa eficiência é atribuída ao consumo reduzido de memória e aumento da velocidade computacional oferecida pelo FP8 [3] [6].

Em resumo, a precisão do FP8 no Deepseek-V3 é crucial para obter alta eficiência de treinamento, mantendo a precisão do modelo. Ele é cuidadosamente integrado a uma estrutura de precisão mista, alavancando quantização de grão fino e quantização on-line para mitigar as limitações do FP8.

Citações:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8bit-flloating-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-fp8-mixed-precision-tring/