DeepSeek-V3 використовує FP8 змішану точну підготовку, щоб значно підвищити його продуктивність, особливо з точки зору ефективності, швидкості та використання пам'яті. Цей підхід використовує 8-бітні числа з плаваючою комою, що дозволяє значно зменшити споживання пам'яті приблизно вдвічі зменшити вимоги порівняно з точністю FP16. Як результат, DeepSeek може ефективно працювати на меншій кількості графічних процесорів, зберігаючи високий рівень точності під час тренувань [1] [4] [9].
Ключові наслідки змішаної точності FP8
1. Підвищена ефективність: Використовуючи точність FP8, DeepSeek-V3 досягає чудової ефективності навчання. Фаза перед тренуванням моделі вимагала лише близько 2,788 мільйона годин GPU, що переводить на вартість приблизно на 5,576 мільйонів доларів значно нижчий, ніж у порівнянних моделей [2] [7] [9].
2. Прискорена швидкість обробки: Прийняття FP8 дозволяє швидше обчислювати обчислення за рахунок зменшення розміру даних, який потрібно обробити. Це прискорення додатково доповнюється алгоритмом DualPipe, який оптимізує паралелізм трубопроводу, перекриваючи фази обчислення та зв'язку, мінімізуючи час роботи в режимі очікування [1] [3] [7].
3. Масштабованість: Скоротний слід пам'яті дозволяє DeepSeek-V3 обробляти більші набори даних та більш широкі архітектури моделі, не несучи додаткових обчислювальних витрат. Ця масштабованість має вирішальне значення для розробки передових мовних моделей, які потребують ефективної обробки величезних кількостей [1] [4].
4. Покращена продуктивність моделі: Інтеграція змішаної точності FP8 не компрометує точність моделі. Натомість це підвищує здатність моделі генерувати узгоджені та контекстно відповідні результати за допомогою таких методик, як багатокранний прогноз (MTP), який тренує модель для передбачення декількох жетонів одночасно [1] [3] [9]. Ця здатність особливо корисна для складних лінгвістичних завдань та багатоетапних міркувань.
Підводячи підсумок, змішана точна підготовка FP8 є наріжним каменем архітектури DeepSeek-V3, що дозволяє їй досягти високої продуктивності із зниженими вимогами до ресурсів, зберігаючи точність та масштабованість у різних програмах розвитку ШІ.
Цитати:[1] https://ithy.com/article/deepseek-v3-progress-in-language-models-huyq64wk
.
[3] https://arxiv.org/html/2412.19437v1
[4] https://www.linkedin.com/pulse/deepseek-revolutionalizing-ai-open-source-resoning-20-ramachandran-xakme
[5] https://huggingface.co/deepseek-ai/deepseek-v3
[6] https://arxiv.org/pdf/2412.19437.pdf
[7] https://adasci.org/deepseek-v3-explained-optimization-eficsificy-and-scale/
[8] https://stratechery.com/2025/deepseek-faq/
[9] https://guptadeepak.com/deepseek-revolutionizing-ai-with-eficsicy-inovation-and-affordability/
[10] https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html