Zastosowanie FP8 (8-bit zmiennoprzecinkowy) do operacji mnożenia macierzy ogólnej (GEMM) w DeepSeek-V3 oferuje kilka znaczących korzyści, przede wszystkim pod względem wydajności obliczeniowej i oszczędności pamięci. Oto szczegółowe zalety:
1. Wydajność obliczeniowa: Operacje FP8 zapewniają znaczny wzrost prędkości obliczeniowej w porównaniu z tradycyjnymi operacjami FP16 lub FP32. W szczególności rdzenie tensorowe NVIDIA mogą wykonywać operacje FP8 GEMM z dwukrotnością prędkości FP16, co przyspiesza ogólny proces treningowy modeli na dużą skalę, takich jak Deepseek-V3 [3] [4].
2. Oszczędności pamięci: Wykorzystanie FP8 zmniejsza wymagania pamięci o połowę w porównaniu z BF16, umożliwiając przeszkolenie większych i głębszych modeli w ramach tych samych ograniczeń sprzętowych. Jest to szczególnie korzystne dla modeli wymagających obszernych zasobów pamięci, umożliwiając opracowanie bardziej złożonych modeli bez konieczności dodatkowego sprzętu [3] [6].
3. Efektywna komunikacja: w rozproszonych środowiskach szkoleniowych FP8 zmniejsza przepustowość wymaganą do przesyłania danych między GPU, co poprawia wydajność synchronizacji i zmniejsza koszty ogólne komunikacji. Ma to kluczowe znaczenie dla modeli AI na dużą skalę, które często opierają się na rozproszonych konfiguracjach obliczeniowych [3].
4. Drobna kwantyzacja: Deepseek-V3 wykorzystuje drobnoziarnistą strategię kwantyzacji w celu rozwiązania wyzwań związanych z ograniczonym zakresem dynamicznym FP8. Obejmuje to grupowanie elementów w mniejsze płytki lub bloki i skalowanie ich niezależnie, co pomaga w lepszym obsłudze wartości odstających i utrzymaniu stabilności liczbowej [1] [2].
5. Zwiększona precyzja akumulacji: Aby złagodzić błędy spowodowane przez ograniczoną akumulację szerokości bitowej w rdzeniach tensorowych, Deepseek-V3 promuje częściowe wyniki do rejestrów FP32 w określonych odstępach czasu podczas akumulacji. Zwiększa to precyzję operacji FP8 GEMM, zapewniając, że korzyści płynące z FP8 są realizowane bez uszczerbku dla dokładności [1].
6. Format Unified E4M3: W przeciwieństwie do poprzednich podejść, w których stosowano hybrydowe formaty FP8, Deepseek-V3 powszechnie przyjmuje format E4M3. Ułatwia to jej drobnoziarnista strategia kwantyzacji, która skutecznie dzieli bity wykładowców między grupami pogrupowanymi, upraszczając ramy i poprawiając dokładność [1].
7. Kwantyzacja online: Model oblicza współczynniki skalowania dla każdego płytki aktywacyjnej lub blok masy podczas treningu, eliminując potrzebę opóźnionych metod kwantyzacji. Upraszcza to ramy i poprawia dokładność poprzez dostosowanie się do charakterystyki danych w czasie rzeczywistym [1].
8. Zoptymalizowane wsparcie biblioteki: rozwój DeepGemm, zoptymalizowanej biblioteki GEMM FP8, dodatkowo zwiększa wydajność operacji FP8 w Deepseek-V3. DeepGemm obsługuje zarówno architektury gęstej, jak i MOE, zapewniając wydajne obliczenia macierzy, które są kluczowe dla modeli AI na dużą skalę [4] [7]. Wykorzystuje kompilację Just-in-Time (JIT) i drobnoziarniste skalowanie, aby utrzymać wydajność obliczeniową przy jednoczesnym minimalizowaniu utraty precyzji [4] [5].
Cytaty:
[1] https://community.aws/content/2rjj1wKztsfYWVFSIIBHWXEQMF1/four-Unique-takeAways-deepseek-v3?lang=en
[2] https://machinearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://blog.aitoolhouse.com/deepseek-ai-releases-deepgemm-an-optimized-fp8-gemm-library-for-dense-moe-computation/
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-lebrary-that-powers-v3-n-r1-ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722