O uso de FP8 (ponto flutuante de 8 bits) para operações gerais de multiplicação de matrizes (GEMM) no Deepseek-V3 oferece vários benefícios significativos, principalmente em termos de eficiência computacional e economia de memória. Aqui estão as vantagens detalhadas:
1. Eficiência de computação: as operações do FP8 fornecem um aumento substancial na velocidade computacional em comparação com as operações tradicionais de FP16 ou FP32. Especificamente, os núcleos de tensor da NVIDIA podem executar operações FP8 GEMM a duas vezes a velocidade do FP16, que acelera o processo geral de treinamento de modelos em larga escala como Deepseek-V3 [3] [4].
2. Economia de memória: O uso do FP8 reduz os requisitos de memória pela metade em comparação com o BF16, permitindo que modelos maiores e mais profundos sejam treinados dentro das mesmas restrições de hardware. Isso é particularmente benéfico para modelos que requerem recursos extensos de memória, permitindo que modelos mais complexos sejam desenvolvidos sem precisar de hardware adicional [3] [6].
3. Comunicação eficiente: em ambientes de treinamento distribuídos, o FP8 reduz a largura de banda necessária para a transferência de dados entre as GPUs, o que melhora a eficiência da sincronização e reduz a sobrecarga da comunicação. Isso é crucial para modelos de IA em larga escala que geralmente dependem de configurações de computação distribuídas [3].
4. Quantização de granulação fina: Deepseek-V3 emprega uma estratégia de quantização de granulação fina para enfrentar os desafios colocados pela faixa dinâmica limitada do FP8. Isso envolve agrupar elementos em telhas ou blocos menores e escalar -os de forma independente, o que ajuda a manusear melhor o manuseio e a manutenção da estabilidade numérica [1] [2].
5. Precisão de acumulação aumentada: Para mitigar os erros causados pelo acúmulo limitado de largura de bits em núcleos tensores, o Deepseek-V3 promove resultados parciais para registros FP32 em intervalos específicos durante o acúmulo. Isso aprimora a precisão das operações do FP8 GEMM, garantindo que os benefícios do FP8 sejam realizados sem comprometer a precisão [1].
6. Formato E4M3 unificado: Ao contrário das abordagens anteriores que usavam formatos híbridos FP8, o Deepseek-V3 adota o formato E4M3 universalmente. Isso é facilitado por sua estratégia de quantização de granulação fina, que compartilha efetivamente os bits de expoente entre os elementos agrupados, simplificando a estrutura e melhorando a precisão [1].
7. Quantização on -line: o modelo calcula fatores de escala dinamicamente para cada bloco de telha ou peso de ativação durante o treinamento, eliminando a necessidade de métodos de quantização atrasados. Isso simplifica a estrutura e melhora a precisão, adaptando-se às características de dados em tempo real [1].
8. Suporte otimizado da biblioteca: O desenvolvimento da DeepGEMM, uma biblioteca FP8 GEMM otimizada, aumenta ainda mais a eficiência das operações FP8 no Deepseek-V3. A DeepGEMM suporta arquiteturas densas e MOE, garantindo cálculos de matriz eficientes críticos para os modelos de IA em larga escala [4] [7]. Ele utiliza compilação just-in-time (JIT) e escala de granulação fina para manter a eficiência computacional, minimizando a perda de precisão [4] [5].
Citações:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://blog.aitoolhouse.com/deepseek-ai-releases-deepgemm-an-timized-fp8-gemm-library-for-dense-and-mo--pomputação/
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-library-that-powers-v3-and-r1-ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722