Deepseek-V3'te FP8 hassasiyeti: AI eğitiminde verimliliği artırma ve maliyetlerin azaltılması

FP8 Precision, Deepseek-V3'ün eğitim sürecinde önemli bir rol oynar, verimliliği önemli ölçüde artırır ve hesaplama maliyetlerini azaltır. İşte rolünün ayrıntılı bir açıklaması:

FP8 hassasiyetine giriş

FP8, geleneksel 16 bit veya 32 bit formatlara kıyasla daha kompakt bir gösterim sunan 8 bit yüzen bir nokta formatıdır. Bu kompaktlık, daha düşük bellek kullanımı ve daha hızlı hesaplamaya neden olur, bu da Deepseek-V3 [3] [5] gibi büyük ölçekli AI model eğitimi için idealdir.

Karışık Hassas Çerçeve

Deepseek-V3, modelin farklı bölümlerinin farklı düzeylerde hassasiyet kullandığı karışık bir hassas çerçeve kullanır. Genel Matris Çarpma (GEMM) gibi hesaplama yoğun operasyonların çoğu, hız ve bellek kullanımını optimize etmek için FP8'de gerçekleştirilir. Bununla birlikte, gömme modülü, çıkış kafası, MOE geçitleme modülleri, normalizasyon operatörleri ve dikkat operatörleri gibi daha yüksek hassasiyet gerektiren bazı işlemler, doğruluğu korumak için daha yüksek hassasiyet formatlarında (FP16 veya FP32) tutulur [1] [5].

İnce taneli nicemleme

FP8'in sınırlı dinamik aralığının zorluklarını ele almak için Deepseek-V3, ince taneli bir nicemleme stratejisi sunmaktadır. Bu, her biri bağımsız olarak ölçeklendirilmiş olan 128x128 bloklara 1x128 fayans ve ağırlıklara aktivasyonların gruplandırılmasını içerir. Bu yaklaşım, aşırı değerlerin tüm tensörü çarpıtmasını, nicemleme hatalarını azaltmasını ve model doğruluğunu korumasını önler [1] [5].

Online Niceleme

Deepseek-V3, eğitim sırasında her aktivasyon karo veya ağırlık bloğu için ölçeklendirme faktörlerinin dinamik olarak hesaplandığı çevrimiçi nicemlemeyi kullanır. Bu, tarihsel maksimum değerlere dayanan, çerçeveyi basitleştiren ve doğruluğu geliştiren gecikmiş nicemleme yöntemlerine olan ihtiyacı ortadan kaldırır [1] [5].

Artan birikim hassasiyeti

FP8'in tensör çekirdeklerindeki sınırlı birikim hassasiyetinin neden olduğu hataları azaltmak için Deepseek-V3, GEMM işlemleri sırasında belirli aralıklarla FP32 kayıtlarına kısmi sonuçları teşvik eder. Bu, modelin genel doğruluğunu koruyarak küçük hataların birikiminin en aza indirilmesini sağlar [1] [5].

Unified E4m3 Biçimi

Hibrid FP8 formatları kullanan önceki çerçevelerin aksine (örneğin, ileri geçiş için E4m3 ve geri geçiş için E5M2), Deepseek-V3 evrensel olarak E4M3 formatını benimser. Bu, gruplandırılmış elemanlar arasında üs bitlerini etkili bir şekilde paylaşan ve tüm hesaplamalarda hassasiyeti koruyan ince taneli nicemleme stratejisi ile mümkündür [1] [5].

Eğitim Verimliliği Üzerine Etki

FP8 hassasiyetinin kullanımı, Deepseek-V3'ün eğitim sürecini önemli ölçüde hızlandırır. Model, yaklaşık iki ay içinde 2048 GPU veri merkezi kullanılarak eğitildi, bu da ön antrenman için sadece 2.664 milyon H800 GPU saat ve sonraki aşamalar için ek 0.1 milyon GPU saat gerektirdi. Bu verimlilik, azaltılmış bellek tüketimine ve FP8 tarafından sunulan artan hesaplama hızına bağlanır [3] [6].

Özetle, Deepseek-V3'teki FP8 hassasiyeti, model doğruluğunu korurken yüksek eğitim verimliliği elde etmek için çok önemlidir. FP8'in sınırlamalarını azaltmak için ince taneli nicemleme ve çevrimiçi nicemizasyondan yararlanan karışık bir hassas çerçeveye dikkatle entegre edilir.

Alıntılar:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-uniquewaveys-from-depseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-erolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-i-a-a-model-on--lot- ve- ronpled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-bit-floating-point-qp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-fp8-mixed-precision-training/

Deepseek-V3'ün eğitim sürecinde FP8 hassasiyetinin rolünü açıklayabilir misiniz?