Format E4M3 terpadu di Deepseek-V3 berkontribusi secara signifikan terhadap efisiensi model dengan mengatasi beberapa tantangan yang terkait dengan pelatihan presisi campuran, terutama yang terkait dengan rentang dinamis dan presisi. Berikut penjelasan terperinci tentang bagaimana format ini meningkatkan efisiensi:
strategi kuantisasi berbutir halus
Deepseek-V3 menggunakan strategi kuantisasi berbutir halus, yang memungkinkannya untuk secara efektif memanfaatkan format E4M3 di semua tahap pelatihan. Tidak seperti kerangka kerja sebelumnya yang menggunakan format hybrid FP8 (mis., E4M3 untuk umpan ke depan dan E5M2 untuk pass mundur), pendekatan Deepseek-V3 memastikan bahwa aktivasi dikelompokkan dan diskalakan berdasarkan ubin 1x128, sementara bobot ditingkatkan pada basis 128x128 blok [1] [2]. Granularitas ini membantu dalam penanganan outlier yang lebih baik dengan secara dinamis menyesuaikan faktor penskalaan untuk masing -masing kelompok, yang mengurangi dampak rentang dinamis terbatas yang melekat dalam format FP8 [3].
penskalaan dinamis dan kuantisasi online
Model ini menggunakan kuantisasi online, di mana faktor penskalaan dihitung secara dinamis untuk setiap ubin aktivasi atau blok berat selama pelatihan. Ini menghilangkan kebutuhan untuk mempertahankan nilai maksimum historis, menyederhanakan kerangka kerja dan meningkatkan akurasi [1] [2]. Dengan menyesuaikan faktor penskalaan ini secara dinamis, Deepseek-V3 dapat mengoptimalkan penggunaan ember representasi bilangan FP8 yang tersedia, memastikan bahwa sebagian besar nilai tidak dikelompokkan dalam kisaran sempit, yang sebaliknya akan menyebabkan presisi yang buruk untuk nilai yang lebih kecil [3].
Mengurangi penggunaan memori dan biaya komputasi
Format E4M3 terpadu, dikombinasikan dengan kuantisasi berbutir halus, mengurangi penggunaan memori secara signifikan. Dengan menyimpan aktivasi dan status pengoptimal dalam format presisi rendah (mis., FP8 untuk aktivasi), Deepseek-V3 meminimalkan persyaratan memori, yang sangat penting untuk model skala besar [1] [5]. Selain itu, penggunaan FP8 untuk komputasi utama mengurangi biaya komputasi, karena membutuhkan lebih sedikit data untuk diproses dibandingkan dengan format presisi yang lebih tinggi seperti FP16 atau FP32 [5].
stabilitas numerik yang ditingkatkan
Deepseek-V3 juga membahas masalah kehilangan presisi numerik yang terkait dengan pelatihan FP8 dengan mempromosikan hasil parsial ke register FP32 pada interval tertentu selama akumulasi. Strategi ini mengurangi kesalahan yang disebabkan oleh akumulasi bit-lebar terbatas pada inti tensor, memastikan stabilitas numerik dan pelatihan yang andal [1] [7].
Singkatnya, format E4M3 terpadu dalam Deepseek-V3 meningkatkan efisiensi dengan memungkinkan kuantisasi berbutir halus, penskalaan dinamis, pengurangan penggunaan memori, dan peningkatan stabilitas numerik. Inovasi-inovasi ini memungkinkan Deepseek-V3 untuk mencapai kinerja canggih sambil mengoptimalkan sumber daya komputasi.
Kutipan:
[1] https://community.aws/content/2rjj1wkztsfywvfSiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-Explained-optimizing-eficiency-and-sale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-powerfulful-open-source-activity-7278488573006200832-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_official_released_code_paper/