Використання FP8 (8-бітна плаваюча точка) для загальних операцій множення матриці (GEMM) в DeepSeek-V3 пропонує кілька значних переваг, насамперед з точки зору обчислювальної ефективності та економії пам'яті. Ось детальні переваги:
1. Ефективність обчислення: операції FP8 забезпечують істотне збільшення обчислювальної швидкості порівняно з традиційними операціями FP16 або FP32. Зокрема, тензорні ядра NVIDIA можуть виконувати операції GEMM FP8 з вдвічі більше швидкості FP16, що прискорює загальний навчальний процес масштабних моделей, таких як DeepSeek-V3 [3] [4].
2. Економія пам'яті: Використання FP8 зменшує вимоги до пам'яті вдвічі порівняно з BF16, що дозволяє проводити навчання більших і глибших моделей в межах одних і тих же обмежень обладнання. Це особливо вигідно для моделей, які потребують широких ресурсів пам'яті, що дозволяє розробляти більш складні моделі, не потребуючи додаткового обладнання [3] [6].
3. Ефективна комунікація: У розподілених навчальних середовищах FP8 знижує пропускну здатність, необхідну для передачі даних між графічними процесорами, що підвищує ефективність синхронізації та зменшує накладні витрати. Це має вирішальне значення для масштабних моделей AI, які часто покладаються на розподілені обчислювальні налаштування [3].
. Це передбачає групування елементів у менші плитки або блоки та масштабування їх самостійно, що допомагає в кращому поводженні з перевищенням та підтримці численної стабільності [1] [2].
5. Підвищена точність накопичення: Для пом'якшення помилок, спричинених обмеженим накопиченням ширини в тензорах, DeepSeek-V3 сприяє частковим результатам до регістрів FP32 через конкретні проміжки часу під час накопичення. Це підвищує точність операцій GEMM FP8, гарантуючи, що переваги FP8 реалізуються без порушення точності [1].
6. Уніфікований формат E4M3: На відміну від попередніх підходів, які використовували гібридні формати FP8, DeepSeek-V3 приймає формат E4M3 загалом. Це сприяє його дрібнозернистій стратегії квантування, яка ефективно ділиться бітами експонентів серед згрупованих елементів, спрощуючи рамки та підвищуючи точність [1].
7. Онлайн квантування: Модель динамічно розраховує коефіцієнти масштабування для кожного плитки активації або ваги під час тренувань, усуваючи необхідність затримки методів квантування. Це спрощує рамки та підвищує точність, адаптуючись до характеристик даних у режимі реального часу [1].
8. Оптимізована бібліотечна підтримка: Розробка Deepgemm, оптимізована бібліотека GEMM FP8, ще більше підвищує ефективність операцій FP8 в DeepSeek-V3. Deepgemm підтримує як щільні, так і архітектури Мо, забезпечуючи ефективні матричні обчислення, які є критичними для масштабних моделей AI [4] [7]. Він використовує компіляцію вчасно (JIT) та дрібнозернисте масштабування для підтримки ефективності обчислень, мінімізуючи точність втрати [4] [5].
Цитати:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://machinelearningatcale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://blog.aitoolhouse.com/deepseek-ai-releases-deepgemm-an-optimized fp8-gemm-library-for-dense-and-moe-computation/
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-library-that-powers-v3-and-r1-ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722