FP8 Precision w Deepseek-V3: Zwiększenie wydajności i obniżenie kosztów w szkoleniu AI

FP8 Precision odgrywa kluczową rolę w procesie szkoleniowym Deepseek-V3, znacznie zwiększając wydajność i obniżenie kosztów obliczeniowych. Oto szczegółowe wyjaśnienie jej roli:

Wprowadzenie do precyzji FP8

FP8 to 8-bitowy format zmiennoprzecinkowy, który oferuje bardziej zwartą reprezentację w porównaniu z tradycyjnymi 16-bitowymi lub 32-bitowymi formatami. Ta kompaktowość powoduje zmniejszenie użycia pamięci i szybsze obliczenia, dzięki czemu jest idealny do treningu modelu AI na dużą skalę, takim jak Deepseek-V3 [3] [5].

mieszane framework precyzyjne

Deepseek-V3 wykorzystuje mieszane precyzyjne ramy, w których różne części modelu wykorzystują różne poziomy precyzji. Większość operacji obliczeniowych, takich jak mnożenie macierzy ogólnej (GEMM), są wykonywane w FP8 w celu optymalizacji zużycia prędkości i pamięci. Jednak niektóre operacje wymagające wyższej precyzji, takie jak moduł osadzania, głowica wyjściowa, moduły bramkowania MOE, operatory normalizacyjne i operatory uwagi, są przechowywane w formatach o wyższych precyzji (FP16 lub FP32) w celu zachowania dokładności [1] [5].

drobnoziarnista kwantyzacja

Aby sprostać wyzwaniom ograniczonego zakresu dynamicznego FP8, Deepseek-V3 wprowadza drobnoziarnistą strategię kwantyzacji. Obejmuje to grupowanie aktywacji w płytki 1x128 i wagi w blokach 128x128, każdy skalowany niezależnie. Takie podejście zapobiega zniekształceniu ekstremalnych wartości całego tensora, zmniejszania błędów kwantyzacji i utrzymania dokładności modelu [1] [5].

kwantyzacja online

DeepSeek-V3 wykorzystuje kwantyzację online, w której współczynniki skalowania są dynamicznie obliczane dla każdej płytki aktywacyjnej lub bloku wagi podczas treningu. Eliminuje to potrzebę opóźnionych metod kwantyzacji, które opierają się na historycznych maksymalnych wartościach, upraszczając ramy i poprawiając dokładność [1] [5].

Zwiększona precyzja akumulacji

Aby złagodzić błędy spowodowane ograniczoną precyzją akumulacji FP8 w rdzeniach tensorowych, Deepseek-V3 promuje częściowe wyniki do rejestrów FP32 w określonych odstępach czasu podczas operacji GEMM. Zapewnia to zminimalizowanie akumulacji małych błędów, utrzymując ogólną dokładność modelu [1] [5].

Unified E4M3 Format

W przeciwieństwie do poprzednich frameworków, które stosowały hybrydowe formaty FP8 (np. E4M3 dla przełęczy do przodu i E5m2 dla podania do tyłu), Deepseek-V3 powszechnie przyjmuje format E4M3. Jest to możliwe dzięki jej drobnoziarnistej strategii kwantyzacji, która skutecznie dzieli bity wykładowców między zgrupowanymi elementami, zachowując precyzję we wszystkich obliczeniach [1] [5].

Wpływ na wydajność treningu

Zastosowanie precyzji FP8 znacznie przyspiesza proces szkolenia Deepseek-V3. Model został przeszkolony przy użyciu centrum danych 2048 GPU w ciągu zaledwie około dwóch miesięcy, co wymaga tylko 2,664 miliona godzin GPU H800 w celu wstępnego treningu i dodatkowych 0,1 miliona godzin GPU na kolejne etapy. Wydajność ta przypisuje się zmniejszonym zużyciu pamięci i zwiększonej prędkości obliczeniowej oferowanej przez FP8 [3] [6].

Podsumowując, precyzja FP8 w Deepseek-V3 ma kluczowe znaczenie dla osiągnięcia wysokiej wydajności treningu przy jednoczesnym zachowaniu dokładności modelu. Jest starannie zintegrowany z mieszaną precyzyjną ramą, wykorzystując drobnoziarnistą kwantyzację i kwantyzację online w celu złagodzenia ograniczeń FP8.

Cytaty:
[1] https://community.aws/content/2rjj1wKztsfYWVFSIIBHWXEQMF1/four-Unique-takeAways-deepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-bit-floating-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-fp8-lixed-preciision-training/

Czy możesz wyjaśnić rolę precyzji FP8 w procesie szkoleniowym Deepseek-V3