DeepSeek-V3 использует FP8 смешанную точную тренировку, чтобы значительно повысить его производительность, особенно с точки зрения эффективности, скорости и использования памяти. В этом подходе используются 8-битные номера с плавающей запятой, что позволяет значительно сократить потребление памяти-приблизительно вдвое требования по сравнению с точностью FP16. В результате DeepSeek может эффективно работать на меньшем количестве графических процессоров при сохранении высоких уровней точности во время тренировок [1] [4] [9].
Ключевые воздействия FP8 смешанной точной тренировки
1. Повышенная эффективность: используя точность FP8, DeepSeek-V3 достигает замечательной эффективности тренировок. Фаза предварительного обучения модели требовала всего около 2,788 миллионов часов графического процессора, что привело к стоимости приблизительно 5,576 млн. Долл. США значительно ниже, чем у сопоставимых моделей [2] [7] [9].
2. Ускоренная скорость обработки: принятие FP8 позволяет обработать более быстрые вычисления, уменьшая размер данных, который необходимо обработать. Это ускорение дополнительно дополняется алгоритмом двойной трубы, который оптимизирует параллелизм трубопровода путем перекрытия фаз вычислений и связи, минимизируя время холостого хода для графических процессоров [1] [3] [7].
3. Масштабируемость: сниженная площадь памяти позволяет DeepSeek-V3 обрабатывать более крупные наборы данных и более обширные архитектуры модели без дополнительных вычислительных затрат. Эта масштабируемость имеет решающее значение для разработки расширенных языковых моделей, которые требуют эффективной обработки огромных объемов данных [1] [4].
4. Улучшенная производительность модели: интеграция смешанной точности FP8 не ставит под угрозу точность модели. Вместо этого он повышает способность модели генерировать когерентные и контекстуально релевантные выходы с помощью таких методов, как многократный прогноз (MTP), которые обучает модель одновременно предвидеть множественные токены [1] [3] [9]. Эта возможность особенно полезна для сложных лингвистических задач и многоэтапных рассуждений.
Таким образом, FP8 Mixed Precision Training представляет собой краеугольный камень архитектуры DeepSeek-V3, позволяющий ему достичь высокой производительности с пониженными требованиями к ресурсам при сохранении точности и масштабируемости в различных приложениях в разработке искусственного интеллекта.
Цитаты:[1] https://ithy.com/article/deepseek-v3-progress-in-language-models-huyq64wk
[2] https://opentools.ai/news/deepseeks-craktrough-a-new-era-for-ai-with-compute-wower
[3] https://arxiv.org/html/2412.19437v1
[4] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-reasoning-20-ramanchandran-xakme
[5] https://huggingface.co/deepseek-ai/deepseek-v3
[6] https://arxiv.org/pdf/2412.19437.pdf
[7] https://adasci.org/deepseek-v3-expliend-optimizing-efficinity и scale/
[8] https://stratechery.com/2025/deepseek-faq/
[9] https://guptadeepak.com/deepseek-revolutionizing-ai-with-efficity-innovation-and-comerbordability/
[10] https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html