Deepseek-V3 Birleşik E4M3 Biçimi: Model Verimliliğini Artırma

Deepseek-V3'teki birleşik E4M3 formatı, karışık hassasiyet eğitimiyle, özellikle dinamik aralık ve hassasiyetle ilgili olanlar ile ilişkili çeşitli zorlukları ele alarak modelin verimliliğine önemli ölçüde katkıda bulunur. İşte bu formatın verimliliği nasıl artırdığına dair ayrıntılı bir açıklama:

İnce taneli nicemleme stratejisi

Deepseek-V3, eğitimin tüm aşamalarında E4M3 formatını etkili bir şekilde kullanmasını sağlayan ince taneli bir nicemleme stratejisi kullanır. Hibrid FP8 formatları kullanan önceki çerçevelerin aksine (örneğin, ileri geçiş için E4m3 ve geri geçiş için E5M2), Deepseek-V3'ün yaklaşımı, aktivasyonların 1x128 karo bazında gruplandırılmasını ve ölçeklendirilmesini sağlarken, ağırlıklar 128x128 blok baz [1] [2] [2] üzerinde ölçeklendirilmesini sağlar. Bu taneciklik, FP8 formatlarında bulunan sınırlı dinamik aralığın etkisini azaltan her grup için ölçeklendirme faktörlerini dinamik olarak ayarlayarak aykırı değerlerin daha iyi kullanımına yardımcı olur [3].

Dinamik Ölçeklendirme ve Çevrimiçi Niceleme

Model, eğitim sırasında her aktivasyon karo veya ağırlık bloğu için ölçeklendirme faktörlerinin dinamik olarak hesaplandığı çevrimiçi nicemlemeyi kullanır. Bu, tarihsel maksimum değerlerin korunması, çerçeveyi basitleştirme ve doğruluğu geliştirme ihtiyacını ortadan kaldırır [1] [2]. Bu ölçeklendirme faktörlerini dinamik olarak ayarlayarak, Deepseek-V3 mevcut FP8 sayısı temsil kovalarının kullanımını optimize edebilir, bu da çoğu değerin dar bir aralıkta kümelenmemesini sağlar, bu da aksi takdirde daha küçük değerler için zayıf hassasiyete yol açar [3].

Azaltılmış Bellek Kullanımı ve Hesaplama Maliyetleri

Birleşik E4M3 biçimi, ince taneli nicemleme ile birleştiğinde, bellek kullanımını önemli ölçüde azaltır. Aktivasyonları ve optimize edici durumları daha düşük hassasiyetli formatlarda saklayarak (örneğin, aktivasyonlar için FP8), Deepseek-V3, büyük ölçekli modeller için çok önemli olan bellek gereksinimlerini en aza indirir [1] [5]. Ek olarak, temel hesaplamalar için FP8 kullanımı, FP16 veya FP32 gibi daha yüksek hassasiyetli formatlara kıyasla daha az veri işlenmesini gerektirdiğinden hesaplama maliyetlerini azaltır [5].

Gelişmiş Sayısal İstikrar

Deepseek-V3 ayrıca, birikim sırasında FP32 kayıtlarına kısmi sonuçları teşvik ederek FP8 eğitimi ile ilişkili sayısal hassasiyet kaybı konusunu da ele almaktadır. Bu strateji, tensör çekirdeklerdeki sınırlı bit genişliği birikiminin neden olduğu hataları azaltarak sayısal stabilite ve güvenilir eğitim sağlar [1] [7].

Özetle, Deepseek-V3'teki birleşik E4M3 formatı, ince taneli nicemleme, dinamik ölçeklendirme, azaltılmış bellek kullanımı ve iyileştirilmiş sayısal stabilite sağlayarak verimliliği artırır. Bu yenilikler, Deepseek-V3'ün hesaplama kaynaklarını optimize ederken son teknoloji ürünü performans elde etmesini sağlar.

Alıntılar:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-uniquewaveys-from-depseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-erolution
[5] https://cciedump.spoto.net/newblog/overview-fode-deepseek-v3:-latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3-splained-optimizizing-fort-and-scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-powerful-open-source-activity-727848573006200832-kta_
[8] https://www.reddit.com/r/localllamama/comments/1hmmtt3/deepseek_v3_is_officially_releed_code_paper/ kağıt

Birleşik E4m3 biçimi Deepseek-V3'ün verimliliğine nasıl katkıda bulunuyor?

İnce taneli nicemleme stratejisi

Dinamik Ölçeklendirme ve Çevrimiçi Niceleme

Azaltılmış Bellek Kullanımı ve Hesaplama Maliyetleri

Gelişmiş Sayısal İstikrar