Точность FP8 играет решающую роль в учебном процессе DeepSeek-V3, значительно повышая эффективность и снижая вычислительные затраты. Вот подробное объяснение его роли:
Введение в FP8 Precision
FP8 представляет собой 8-битный формат с плавающей запятой, который предлагает более компактное представление по сравнению с традиционными 16-битными или 32-битными форматами. Эта компактность приводит к снижению использования памяти и более быстрому вычислению, что делает его идеальным для крупномасштабного обучения модели ИИ, как DeepSeek-V3 [3] [5].
смешанная точная структура
DeepSeek-V3 использует смешанную точную структуру, где разные части модели используют разные уровни точности. Большинство вычислительных операций, такие как умножение общей матрицы (GEMM), выполняются в FP8 для оптимизации скорости и использования памяти. Однако некоторые операции, которые требуют более высокой точности, таких как модуль встраивания, выходная головка, модули стробирования MOE, операторы нормализации и операторы внимания, содержатся в более высоких форматах точности (FP16 или FP32) для поддержания точности [1] [5].
мелкозернистое квантование
Чтобы решить проблемы ограниченного динамического диапазона FP8, DeepSeek-V3 представляет собой мелкозернистую стратегию квантования. Это включает в себя группировку активаций в плитки 1x128 и веса в блоки 128x128, каждый из которых масштабируется независимо. Этот подход предотвращает экстремальные значения искажать весь тензор, уменьшая ошибки квантования и поддержание точности модели [1] [5].
онлайн квантование
DeepSeek-V3 использует онлайн-квантование, где коэффициенты масштабирования динамически рассчитываются для каждой плитки активации или веса во время тренировок. Это устраняет необходимость в методах отсроченного квантования, которые полагаются на исторические максимальные значения, упрощая структуру и повышение точности [1] [5].
повышенная точность накопления
Чтобы смягчить ошибки, вызванные ограниченной точностью накопления FP8 в тензорных ядрах, DeepSeek-V3 способствует частичным результатам до регистров FP32 с определенными интервалами во время операций GEMM. Это гарантирует, что накопление небольших ошибок минимизируется, сохраняя общую точность модели [1] [5].
Unified E4M3 формат
В отличие от предыдущих рамок, которые использовали гибридные форматы FP8 (например, E4M3 для прямого прохода и E5M2 для обратного прохода), DeepSeek-V3 универсально принимает формат E4M3. Это стало возможным благодаря его мелкозернистой стратегии квантования, которая эффективно разделяет биты показателей между группированными элементами, сохраняя точность во всех вычислениях [1] [5].
влияние на эффективность обучения
Использование точности FP8 значительно ускоряет учебный процесс DeepSeek-V3. Модель была обучена с использованием центра обработки данных 2048 года через два месяца, что потребовало всего 2,664 миллиона часов H800 для предварительного обучения и дополнительно 0,1 млн. ГПУ часов для последующих этапов. Эта эффективность объясняется сниженным потреблением памяти и повышенной скоростью вычислительных вычислений, предлагаемой FP8 [3] [6].
Таким образом, точность FP8 в DeepSeek-V3 имеет решающее значение для достижения высокой эффективности обучения при сохранении точности модели. Он тщательно интегрируется в смешанную точную структуру, используя мелкозернистую квантование и квантование в Интернете для смягчения ограничений FP8.
Цитаты:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-model-on-a-lot-an-and-crippled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-bit-ploating-point-f8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-f8-mixed-precision