Унифицированный формат E4M3 в DeepSeek-V3 значительно способствует эффективности модели, решая несколько проблем, связанных с обучением смешанного назначения, особенно тех, которые связаны с динамическим диапазоном и точностью. Вот подробное объяснение того, как этот формат повышает эффективность:
Стратегия мелкозернистого квантования
DeepSeek-V3 использует мелкозернистую стратегию квантования, которая позволяет эффективно использовать формат E4M3 на всех этапах обучения. В отличие от предыдущих рамок, которые использовали гибридные форматы FP8 (например, E4M3 для прямого прохода и E5M2 для обратного прохода), подход DeepSeek-V3 гарантирует, что активации сгруппируются и масштабируются на основе 1x128, в то время как веса масштабируются на блоке 128x128 [1] [2]. Эта гранулярность помогает в лучшей обработке выбросов путем динамической регулировки коэффициентов масштабирования для каждой группы, что смягчает влияние ограниченного динамического диапазона, присущего форматам FP8 [3].
Динамическое масштабирование и онлайн -квантование
Модель использует онлайн -квантование, где коэффициенты масштабирования рассчитываются динамически для каждой плитки активации или веса во время тренировок. Это устраняет необходимость поддержания исторических максимальных значений, упрощения структуры и повышения точности [1] [2]. Динамически регулируя эти коэффициенты масштабирования, DeepSeek-V3 может оптимизировать использование доступных ведер FP8 числа, гарантируя, что большинство значений не кластеризованы в узком диапазоне, что в противном случае приведет к плохой точке для меньших значений [3].
снижение использования памяти и вычислительные затраты
Унифицированный формат E4M3 в сочетании с мелкозернистым квантованием значительно снижает использование памяти. Хранив активации и состояния оптимизатора в форматах с более низким характером (например, FP8 для активаций), DeepSeek-V3 минимизирует требования к памяти, что имеет решающее значение для крупномасштабных моделей [1] [5]. Кроме того, использование FP8 для ключевых вычислений снижает вычислительные затраты, так как требуется обработка меньше данных по сравнению с форматами более высокого определения, такими как FP16 или FP32 [5].
повышенная численная стабильность
DeepSeek-V3 также решает проблему численной потери точности, связанной с обучением FP8, стимулируя частичные результаты в регистрах FP32 с определенными интервалами во время накопления. Эта стратегия смягчает ошибки, вызванные ограниченным накоплением битов в тензорных ядрах, обеспечивая численную стабильность и надежную подготовку [1] [7].
Таким образом, унифицированный формат E4M3 в DeepSeek-V3 повышает эффективность, позволяя мелкозернистому квантованию, динамическому масштабированию, снижению использования памяти и улучшению численной стабильности. Эти инновации позволяют DeepSeek-V3 достичь современной производительности при оптимизации вычислительных ресурсов.
Цитаты:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-explaind-optimizing-efficinateic и Scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-power-open-source-activity-7278488573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officially_releadued_code_paper/