Ujednolicony format E4M3 w DeepSeek-V3 znacząco przyczynia się do wydajności modelu poprzez rozwiązanie kilku wyzwań związanych ze szkoleniem mieszanej precyzyjnej, szczególnie tych związanych z zakresem dynamicznym i precyzją. Oto szczegółowe wyjaśnienie, w jaki sposób ten format zwiększa wydajność:
Strategia kwantyzacji drobnoziarnistej
Deepseek-V3 stosuje drobnoziarnistą strategię kwantyzacji, która pozwala jej skutecznie wykorzystać format E4M3 na wszystkich etapach szkolenia. W przeciwieństwie do poprzednich ram, które stosowały hybrydowe formaty FP8 (np. E4M3 dla przełęczy do przodu i E5m2 dla przepustki do tylnej), podejście Deepseek-V3 zapewnia, że aktywacje są grupowane i skalowane na zasadzie kafelku 1x128, podczas gdy ciężary są skalowane na podstawie bloku 128x128 [1] [2]. Ta ziarnistość pomaga w lepszym obsłudze wartości odstających poprzez dynamiczne dostosowanie współczynników skalowania dla każdej grupy, co łagodzi wpływ ograniczonego zakresu dynamicznego związanego z formatami FP8 [3].
Skalowanie dynamiczne i kwantyzacja online
Model wykorzystuje kwantyzację online, w której współczynniki skalowania są obliczane dynamicznie dla każdej płytki aktywacyjnej lub bloku wagi podczas treningu. Eliminuje to potrzebę utrzymania historycznych maksymalnych wartości, upraszczania ram i poprawy dokładności [1] [2]. Dzięki dynamicznym dostosowaniu tych współczynników skalowania Deepseek-V3 może zoptymalizować zastosowanie dostępnych wiader reprezentacji liczb FP8, zapewniając, że większość wartości nie jest skupiona w wąskim zakresie, co w przeciwnym razie doprowadziłoby do złej precyzji dla mniejszych wartości [3].
zmniejszone zużycie pamięci i koszty obliczeniowe
Ujednolicony format E4M3, w połączeniu z drobnoziarnistym kwantyzacją, znacznie zmniejsza zużycie pamięci. Przechowując aktywacje i stany optymalizatora w formatach niższej precyzyjnej (np. FP8 dla aktywacji), Deepseek-V3 minimalizuje wymagania pamięci, co jest kluczowe dla modeli na dużą skalę [1] [5]. Ponadto zastosowanie FP8 do kluczowych obliczeń zmniejsza koszty obliczeniowe, ponieważ wymaga przetwarzania mniejszej liczby danych w porównaniu z formatami o wyższej precyzyjnej, takich jak FP16 lub FP32 [5].
Zwiększona stabilność liczbowa
Deepseek-V3 dotyczy również kwestii liczbowej precyzyjnej straty związanej ze szkoleniem FP8 poprzez promowanie częściowych wyników do rejestrów FP32 w określonych odstępach czasu podczas akumulacji. Ta strategia łagodzi błędy spowodowane ograniczoną akumulacją szerokości bitowej w rdzeniach tensorowych, zapewniając stabilność liczbową i niezawodne szkolenie [1] [7].
Podsumowując, ujednolicony format E4M3 w Deepseek-V3 zwiększa wydajność, umożliwiając drobnoziarnistą kwantyzację, dynamiczne skalowanie, zmniejszone zużycie pamięci i lepszą stabilność liczbową. Te innowacje umożliwiają DeepSeek-V3 osiągnięcie najnowocześniejszej wydajności, jednocześnie optymalizując zasoby obliczeniowe.
Cytaty:
[1] https://community.aws/content/2rjj1wKztsfYWVFSIIBHWXEQMF1/four-Unique-takeAways-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cencidump.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-explained-optimizing-efficien-and-scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-powerful-open-pen-activity-7278488573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_official_reliase_code_paper/paper/paper/paper/paper/