Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ¿Cómo contribuye el formato unificado E4M3 a la eficiencia de Deepseek-V3


¿Cómo contribuye el formato unificado E4M3 a la eficiencia de Deepseek-V3


El formato E4M3 unificado en Deepseek-V3 contribuye significativamente a la eficiencia del modelo al abordar varios desafíos asociados con el entrenamiento de precisión mixta, particularmente aquellos relacionados con el rango dinámico y la precisión. Aquí hay una explicación detallada de cómo este formato mejora la eficiencia:

Estrategia de cuantización de grano fino

Deepseek-V3 emplea una estrategia de cuantización de grano fino, que le permite utilizar de manera efectiva el formato E4M3 en todas las etapas de la capacitación. A diferencia de los marcos anteriores que utilizaron formatos FP8 híbridos (por ejemplo, E4M3 para el pase hacia adelante y E5M2 para el pase hacia atrás), el enfoque de Deepseek-V3 asegura que las activaciones se agrupen y escalen en base a 1x128, mientras que los pesos se escalan en una base de bloque 128X128 [1] [2]. Esta granularidad ayuda a manejar mejor los valores atípicos al ajustar dinámicamente los factores de escala para cada grupo, que mitiga el impacto del rango dinámico limitado inherente a los formatos FP8 [3].

Escalado dinámico y cuantización en línea

El modelo utiliza cuantización en línea, donde los factores de escala se calculan dinámicamente para cada mosaico de activación o bloque de peso durante el entrenamiento. Esto elimina la necesidad de mantener valores máximos históricos, simplificando el marco y mejorando la precisión [1] [2]. Al ajustar dinámicamente estos factores de escala, Deepseek-V3 puede optimizar el uso de los cubos de representación de número FP8 disponibles, asegurando que la mayoría de los valores no se agrupen en un rango estrecho, lo que de otro modo conduciría a una precisión deficiente para valores más pequeños [3].

Costos reducidos de la memoria y los costos computacionales

El formato E4M3 unificado, combinado con cuantización de grano fino, reduce significativamente el uso de la memoria. Al almacenar activaciones y estados optimizadores en formatos de menor precisión (por ejemplo, FP8 para activaciones), Deepseek-V3 minimiza los requisitos de memoria, que es crucial para los modelos a gran escala [1] [5]. Además, el uso de FP8 para cálculos clave reduce los costos computacionales, ya que requiere que se procesen menos datos en comparación con formatos de mayor precisión como FP16 o FP32 [5].

Estabilidad numérica mejorada

Deepseek-V3 también aborda el problema de la pérdida de precisión numérica asociada con el entrenamiento de FP8 al promover resultados parciales a registros FP32 a intervalos específicos durante la acumulación. Esta estrategia mitiga los errores causados ​​por la acumulación limitada del ancho de bits en núcleos de tensor, asegurando la estabilidad numérica y el entrenamiento confiable [1] [7].

En resumen, el formato E4M3 unificado en Deepseek-V3 mejora la eficiencia al permitir cuantización de grano fino, escala dinámica, uso de memoria reducida y estabilidad numérica mejorada. Estas innovaciones permiten a Deepseek-V3 lograr un rendimiento de última generación al tiempo que optimiza los recursos computacionales.

Citas:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways--fromseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-ofdeepseek-v3:-latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-expliced-optimizing-eficiency-and-scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-powerful-open-source-activity-7278488573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officialy_releed_code_paper/