Presisi FP8 di Deepseek-V3: Meningkatkan efisiensi dan mengurangi biaya dalam pelatihan AI

Presisi FP8 memainkan peran penting dalam proses pelatihan Deepseek-V3, secara signifikan meningkatkan efisiensi dan mengurangi biaya komputasi. Berikut penjelasan terperinci tentang perannya:

Pengantar FP8 Precision

FP8 adalah format floating-point 8-bit yang menawarkan representasi yang lebih kompak dibandingkan dengan format 16-bit atau 32-bit tradisional. Kekayaan ini menghasilkan pengurangan penggunaan memori dan perhitungan yang lebih cepat, membuatnya ideal untuk pelatihan model AI skala besar seperti Deepseek-V3 [3] [5].

Kerangka Presisi Campuran

Deepseek-V3 menggunakan kerangka kerja presisi campuran, di mana berbagai bagian model menggunakan tingkat presisi yang berbeda. Sebagian besar operasi komputasi-intensif, seperti perkalian matriks umum (GEMM), dilakukan dalam FP8 untuk mengoptimalkan penggunaan kecepatan dan memori. Namun, operasi tertentu yang membutuhkan presisi lebih tinggi, seperti modul embedding, kepala output, modul Gating MOE, operator normalisasi, dan operator perhatian, disimpan dalam format presisi yang lebih tinggi (FP16 atau FP32) untuk mempertahankan akurasi [1] [5].

kuantisasi berbutir halus

Untuk mengatasi tantangan jangkauan dinamis FP8 yang terbatas, Deepseek-V3 memperkenalkan strategi kuantisasi berbutir halus. Ini melibatkan pengelompokan aktivasi ke dalam ubin 1x128 dan bobot menjadi 128x128 blok, masing -masing diskalakan secara independen. Pendekatan ini mencegah nilai ekstrem dari mendistorsi seluruh tensor, mengurangi kesalahan kuantisasi dan mempertahankan akurasi model [1] [5].

Kuantisasi online

Deepseek-V3 menggunakan kuantisasi online, di mana faktor penskalaan dihitung secara dinamis untuk setiap ubin aktivasi atau blok berat selama pelatihan. Ini menghilangkan kebutuhan untuk metode kuantisasi tertunda yang bergantung pada nilai maksimum historis, menyederhanakan kerangka kerja dan meningkatkan akurasi [1] [5].

Peningkatan presisi akumulasi

Untuk mengurangi kesalahan yang disebabkan oleh ketepatan akumulasi terbatas FP8 pada inti tensor, Deepseek-V3 mempromosikan hasil parsial ke register FP32 pada interval tertentu selama operasi GEMM. Ini memastikan bahwa akumulasi kesalahan kecil diminimalkan, mempertahankan akurasi keseluruhan model [1] [5].

Format

Unified E4M3

Tidak seperti kerangka kerja sebelumnya yang menggunakan format FP8 hybrid (mis., E4M3 untuk Pass Forward dan E5M2 untuk Pass Backward), Deepseek-V3 secara universal mengadopsi format E4M3. Hal ini dimungkinkan oleh strategi kuantisasi berbutir halus, yang secara efektif berbagi bit eksponen di antara elemen yang dikelompokkan, mempertahankan ketepatan di semua perhitungan [1] [5].

Dampak pada efisiensi pelatihan

Penggunaan presisi FP8 secara signifikan mempercepat proses pelatihan Deepseek-V3. Model ini dilatih menggunakan pusat data 2048 GPU hanya dalam waktu sekitar dua bulan, hanya membutuhkan 2,664 juta jam GPU H800 untuk pra-pelatihan dan tambahan 0,1 juta jam GPU untuk tahap berikutnya. Efisiensi ini dikaitkan dengan berkurangnya konsumsi memori dan peningkatan kecepatan komputasi yang ditawarkan oleh FP8 [3] [6].

Singkatnya, presisi FP8 di Deepseek-V3 sangat penting untuk mencapai efisiensi pelatihan yang tinggi sambil mempertahankan akurasi model. Ini dengan hati-hati diintegrasikan ke dalam kerangka kerja presisi campuran, memanfaatkan kuantisasi berbutir halus dan kuantisasi online untuk mengurangi keterbatasan FP8.

Kutipan:
[1] https://community.aws/content/2rjj1wkztsfywvfSiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-podel-on-a-lot-less-krippled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-inovations-8-bit-floating-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-fp8-mixed-pecision-training/

Dapatkah Anda menjelaskan peran presisi fp8 dalam proses pelatihan Deepseek-V3