Формат E4M3 DeepSeek-V3: підвищення ефективності моделі

Уніфікований формат E4M3 у DeepSeek-V3 суттєво сприяє ефективності моделі, вирішуючи декілька проблем, пов’язаних із тренуванням із змішаною точністю, особливо з тих, що стосуються динамічного діапазону та точності. Ось детальне пояснення того, як цей формат підвищує ефективність:

тонкозерниста стратегія квантування

DeepSeek-V3 використовує дрібнозернисту стратегію квантування, яка дозволяє їй ефективно використовувати формат E4M3 на всіх етапах навчання. На відміну від попередніх рамок, які використовували гібридні формати FP8 (наприклад, E4M3 для переднього проходу та E5M2 для зворотного проходу), підхід DeepSeek-V3 гарантує, що активації групуються та масштабуються на основі плитки 1x128, тоді як ваги масштабуються на блок 128x128 блок [1] [2]. Ця деталізація допомагає в кращому поводженні з переживань, динамічно регулюючи коефіцієнти масштабування для кожної групи, що пом'якшує вплив обмеженого динамічного діапазону, притаманних форматам FP8 [3].

Динамічне масштабування та квантування в Інтернеті

Модель використовує квантування в Інтернеті, де коефіцієнти масштабування розраховуються динамічно для кожного блоку плитки активації або ваги під час тренувань. Це виключає необхідність підтримки історичних максимальних значень, спрощення рамки та підвищення точності [1] [2]. Динамічно регулюючи ці коефіцієнти масштабування, DeepSeek-V3 може оптимізувати використання наявних відра для представлення чисел FP8, гарантуючи, що більшість значень не кластеризовані у вузькому діапазоні, що в іншому випадку призведе до поганої точності для менших значень [3].

Зниження споживання пам'яті та обчислювальних витрат

Уніфікований формат E4M3 у поєднанні з дрібнозернистим квантуванням значно зменшує використання пам'яті. Зберігаючи активації та стани оптимізаторів у форматах з нижчою точністю (наприклад, FP8 для активації), DeepSeek-V3 мінімізує вимоги до пам'яті, що має вирішальне значення для масштабних моделей [1] [5]. Крім того, використання FP8 для ключових обчислень зменшує обчислювальні витрати, оскільки для обробки більшої кількості даних потрібно менше даних порівняно з форматами з більш високою точністю, такими як FP16 або FP32 [5].

Підвищена чисельна стабільність

DeepSeek-V3 також вирішує питання чисельної втрати точності, пов'язаної з навчанням FP8, сприяючи частковим результатам до регістрів FP32 через конкретні інтервали під час накопичення. Ця стратегія пом'якшує помилки, спричинені обмеженою накопиченням ширини в тензорах, забезпечуючи чисельну стабільність та надійну підготовку [1] [7].

Підсумовуючи, уніфікований формат E4M3 у DeepSeek-V3 підвищує ефективність, дозволяючи тонкозернистим квантуванням, динамічним масштабуванням, зменшеним використанням пам'яті та покращеною чисельною стабільністю. Ці інновації дозволяють DeepSeek-V3 досягти найсучасніших показників, оптимізуючи обчислювальні ресурси.

Цитати:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-explained-optimization-eficsificy-and-scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-power-open-source-activity-7278488573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officialy_relage_code_paper/

Як уніфікований формат E4M3 сприяє ефективності DeepSeek-V3

тонкозерниста стратегія квантування

Динамічне масштабування та квантування в Інтернеті

Зниження споживання пам'яті та обчислювальних витрат

Підвищена чисельна стабільність