Penggunaan FP8 (8-bit floating point) untuk operasi multiplikasi matriks umum (GEMM) di Deepseek-V3 menawarkan beberapa manfaat signifikan, terutama dalam hal efisiensi komputasi dan penghematan memori. Berikut adalah keuntungan terperinci:
1. Efisiensi Hitung: Operasi FP8 memberikan peningkatan kecepatan komputasi yang substansial dibandingkan dengan operasi FP16 atau FP32 tradisional. Secara khusus, inti tensor NVIDIA dapat melakukan operasi GEMM FP8 dengan kecepatan dua kali kecepatan FP16, yang mempercepat proses pelatihan keseluruhan model skala besar seperti Deepseek-V3 [3] [4].
2. Penghematan memori: Menggunakan FP8 mengurangi persyaratan memori hingga setengahnya dibandingkan dengan BF16, memungkinkan model yang lebih besar dan lebih dalam dilatih dalam kendala perangkat keras yang sama. Ini sangat bermanfaat untuk model yang membutuhkan sumber daya memori yang luas, memungkinkan model yang lebih kompleks untuk dikembangkan tanpa memerlukan perangkat keras tambahan [3] [6].
3. Komunikasi yang efisien: Dalam lingkungan pelatihan terdistribusi, FP8 mengurangi bandwidth yang diperlukan untuk transfer data antara GPU, yang meningkatkan efisiensi sinkronisasi dan mengurangi overhead komunikasi. Ini sangat penting untuk model AI skala besar yang sering mengandalkan pengaturan komputasi terdistribusi [3].
4. Kuantisasi berbutir halus: Deepseek-V3 menggunakan strategi kuantisasi berbutir halus untuk mengatasi tantangan yang ditimbulkan oleh rentang dinamis terbatas FP8. Ini melibatkan pengelompokan elemen ke dalam ubin atau blok yang lebih kecil dan meningkatkannya secara mandiri, yang membantu dalam penanganan outlier yang lebih baik dan mempertahankan stabilitas numerik [1] [2].
5. Peningkatan presisi akumulasi: Untuk mengurangi kesalahan yang disebabkan oleh akumulasi bit-lebar terbatas pada inti tensor, Deepseek-V3 mempromosikan hasil parsial ke register FP32 pada interval tertentu selama akumulasi. Ini meningkatkan ketepatan operasi GEMM FP8, memastikan bahwa manfaat FP8 direalisasikan tanpa mengurangi akurasi [1].
6. Format E4M3 Terpadu: Tidak seperti pendekatan sebelumnya yang menggunakan format FP8 hybrid, Deepseek-V3 mengadopsi format E4M3 secara universal. Ini difasilitasi oleh strategi kuantisasi berbutir halus, yang secara efektif berbagi bit eksponen di antara elemen-elemen yang dikelompokkan, menyederhanakan kerangka kerja dan meningkatkan akurasi [1].
7. Kuantisasi Online: Model menghitung faktor penskalaan secara dinamis untuk setiap ubin aktivasi atau blok berat selama pelatihan, menghilangkan kebutuhan untuk metode kuantisasi yang tertunda. Ini menyederhanakan kerangka kerja dan meningkatkan akurasi dengan beradaptasi dengan karakteristik data real-time [1].
8. Dukungan Perpustakaan yang Dioptimalkan: Pengembangan DeepGemM, perpustakaan GEMM FP8 yang dioptimalkan, lebih lanjut meningkatkan efisiensi operasi FP8 di Deepseek-V3. DeepemM mendukung arsitektur padat dan MOE, memastikan perhitungan matriks yang efisien yang sangat penting untuk model AI skala besar [4] [7]. Ini menggunakan kompilasi just-in-time (JIT) dan penskalaan berbutir halus untuk mempertahankan efisiensi komputasi sambil meminimalkan kehilangan presisi [4] [5].
Kutipan:
[1] https://community.aws/content/2rjj1wkztsfywvfSiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4.
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-library-that-powers-v3-and-r1-ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722