Formato E4M3 unificado Deepseek-V3: Aprimorando a eficiência do modelo

Como o formato E4M3 unificado contribui para a eficiência do Deepseek-V3

O formato E4M3 unificado no Deepseek-V3 contribui significativamente para a eficiência do modelo, abordando vários desafios associados ao treinamento de precisão mista, particularmente aqueles relacionados à faixa dinâmica e precisão. Aqui está uma explicação detalhada de como esse formato aprimora a eficiência:

Estratégia de quantização de grama fina

O Deepseek-V3 emprega uma estratégia de quantização de granulação fina, que permite utilizar efetivamente o formato E4M3 em todos os estágios do treinamento. Diferentemente das estruturas anteriores que usavam formatos híbridos FP8 (por exemplo, E4M3 para o passe para a frente e E5M2 para o passe para trás), a abordagem do Deepseek-V3 garante que as ativações sejam agrupadas e escaladas em uma base de 1x128, enquanto os pesos são escalados em um bloco de 128x128 [1] [2]. Essa granularidade ajuda a melhor manusear discrepâncias, ajustando dinamicamente os fatores de escala para cada grupo, o que mitiga o impacto da faixa dinâmica limitada inerente aos formatos FP8 [3].

escala dinâmica e quantização online

O modelo usa quantização on -line, onde os fatores de escala são calculados dinamicamente para cada ladrilho de ativação ou bloqueio de peso durante o treinamento. Isso elimina a necessidade de manter valores máximos históricos, simplificando a estrutura e melhorando a precisão [1] [2]. Ao ajustar dinamicamente esses fatores de escala, o DeepSeek-V3 pode otimizar o uso dos baldes de representação do número FP8 disponíveis, garantindo que a maioria dos valores não seja agrupada em uma faixa estreita, o que levaria a uma precisão baixa para valores menores [3].

Uso de memória reduzido e custos computacionais

O formato E4M3 unificado, combinado com quantização de grão fino, reduz significativamente o uso de memória. Ao armazenar ativações e estados de otimizadores em formatos de menor precisão (por exemplo, FP8 para ativações), o Deepseek-V3 minimiza os requisitos de memória, o que é crucial para modelos em larga escala [1] [5]. Além disso, o uso do FP8 para cálculos-chave reduz os custos computacionais, pois exige que menos dados sejam processados em comparação com formatos de maior precisão como FP16 ou FP32 [5].

estabilidade numérica aprimorada

Deepseek-V3 também aborda a questão da perda de precisão numérica associada ao treinamento FP8, promovendo resultados parciais para registros FP32 em intervalos específicos durante o acúmulo. Essa estratégia mitiga erros causados pelo acúmulo limitado de largura de bits nos núcleos tensores, garantindo estabilidade numérica e treinamento confiável [1] [7].

Em resumo, o formato E4M3 unificado no Deepseek-V3 aumenta a eficiência, permitindo quantização de granulação fina, escala dinâmica, uso reduzido da memória e estabilidade numérica aprimorada. Essas inovações permitem que o DeepSeek-V3 obtenha desempenho de última geração, otimizando os recursos computacionais.

Citações:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-ofdeepseek-v3:-latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-expline-timizing-eficiente-and-cale/
[7] https://www.linkedin.com/postss/danielhanchen_deepseek-v3-is-the-mot-powerful-pen-source-ativity-7278488573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officialmente_releded_code_paper/