Deepseek-V3'teki genel matris çarpımı (GEMM) operasyonları için FP8 (8 bit yüzen nokta) kullanımı, öncelikle hesaplama verimliliği ve bellek tasarrufu açısından birkaç önemli fayda sunar. İşte ayrıntılı avantajlar:
1. Hesaplama Verimliliği: FP8 işlemleri, geleneksel FP16 veya FP32 işlemlerine kıyasla hesaplama hızında önemli bir artış sağlar. Özellikle, NVIDIA'nın tensör çekirdekleri, FP8 GEMM operasyonlarını FP16 hızının iki katında gerçekleştirebilir, bu da Deepseek-V3 [3] [4] gibi büyük ölçekli modellerin genel eğitim sürecini hızlandırır.
2. Bellek Tasarrufu: FP8'in kullanılması bellek gereksinimlerini BF16'ya kıyasla yarı yarıya azaltır ve daha büyük ve daha derin modellerin aynı donanım kısıtlamaları içinde eğitilmesine izin verir. Bu, özellikle kapsamlı bellek kaynakları gerektiren modeller için faydalıdır ve ek donanıma ihtiyaç duymadan daha karmaşık modellerin geliştirilmesini sağlar [3] [6].
3. Verimli iletişim: Dağıtılmış eğitim ortamlarında FP8, Senkronizasyon verimliliğini artıran ve iletişim yükünü azaltan GPU'lar arasında veri aktarımı için gerekli bant genişliğini azaltır. Bu, genellikle dağıtılmış bilgi işlem kurulumlarına dayanan büyük ölçekli AI modelleri için çok önemlidir [3].
4. İnce taneli nicemleme: Deepseek-V3, FP8'in sınırlı dinamik aralığının yarattığı zorlukları ele almak için ince taneli bir nicemleme stratejisi kullanır. Bu, elemanları daha küçük fayanslara veya bloklara gruplandırmayı ve bunları bağımsız olarak ölçeklendirmeyi içerir, bu da aykırı değerlerin daha iyi kullanılmasına ve sayısal stabiliteyi korumaya yardımcı olur [1] [2].
5. Artan birikim hassasiyeti: Tensör çekirdeklerinde sınırlı bit genişliği birikiminin neden olduğu hataları azaltmak için Deepseek-V3, birikim sırasında belirli aralıklarla FP32 kayıtlarına kısmi sonuçları teşvik eder. Bu, FP8 GEMM operasyonlarının hassasiyetini arttırır ve FP8'in faydalarının doğruluktan ödün vermeden gerçekleştirilmesini sağlar [1].
6. Birleşik E4M3 Biçimi: Hibrid FP8 formatlarını kullanan önceki yaklaşımların aksine, Deepseek-V3, E4M3 formatını evrensel olarak benimser. Bu, gruplandırılmış unsurlar arasında üs bitlerini etkili bir şekilde paylaşan, çerçeveyi basitleştiren ve doğruluğu geliştiren ince taneli nicemleme stratejisi ile kolaylaştırılmıştır [1].
7. Çevrimiçi Niceleme: Model, eğitim sırasında her aktivasyon karo veya ağırlık bloğu için ölçeklendirme faktörlerini dinamik olarak hesaplar ve gecikmiş nicemleme yöntemlerine olan ihtiyacı ortadan kaldırır. Bu, çerçeveyi basitleştirir ve gerçek zamanlı veri özelliklerine uyum sağlayarak doğruluğu geliştirir [1].
8. Optimize edilmiş kütüphane desteği: Optimize edilmiş bir FP8 GEMM kütüphanesi olan DeepGEMM'nin geliştirilmesi, Deepseek-V3'teki FP8 operasyonlarının verimliliğini daha da artırır. DeepGEMM hem yoğun hem de MOE mimarilerini destekleyerek büyük ölçekli AI modelleri için kritik olan etkili matris hesaplamaları sağlar [4] [7]. Hassasiyet kaybını en aza indirirken hesaplama verimliliğini korumak için tam zamanında (JIT) derleme ve ince taneli ölçeklendirme kullanır [4] [5].
Alıntılar:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-uniquewaveys-from-depseek-v3?lang=en
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://blog.aitoolhouse.com/deepseek-ai-inrees-deepgemm-an-optimize edilmiş-fp8-Gemm--for-for-for-and-mo-compution/
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/25099975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8gmm-library-that-powers-v3 ve-r1-ai-modeller/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722