Deepseek-V3'te çok başlı gizli dikkatle bellek verimliliğini optimize etmek

Rafine MLA, Deepseek-V3'te hafıza büyümesini yönetmede nasıl bir rol oynuyor?

Deepseek-V3'teki rafine çok kafalı gizli dikkat (MLA) mekanizması, modelin çıkarım süreci sırasında bellek gereksinimlerini önemli ölçüde azaltarak bellek büyümesini yönetmede önemli bir rol oynar. Buradaki bellek verimliliğine bu şekilde katkıda bulunuyor:

1. Dinamik Düşük Ürün Projeksiyonu: MLA Anahtar/değer vektörlerinin dizi uzunluğuna göre sıkıştırılmasını ayarlar. Daha kısa sekanslar için, sadakati korumak için daha az sıkıştırma uygulanırken, daha uzun sekanslar (128k jetonlara kadar), bellek büyümesini yönetmek için daha derin sıkıştırma kullanılır. Bu uyarlanabilir yaklaşım, çok uzun giriş dizileri ile bile bellek kullanımının yönetilebilir kalmasını sağlar [2] [3].

2. Uyarlanabilir sorgu sıkıştırma: Sorgu sıkıştırma için sabit bir boyut kullanan Deepseek-V2'nin aksine, Deepseek-V3, farklı katman derinliklerinde sorguların uyarlanabilir ölçeklendirilmesini kullanır. Erken katmanlar daha iyi ifade için daha yüksek boyutlu sorgular kullanırken, daha derin katmanlar aktivasyon belleğini kaydetmek için sorguları daha agresif bir şekilde sıkıştırır. Bu strateji, ifadeyi verimlilikle dengeleyerek bellek kullanımını optimize eder [2] [3].

3. Geliştirilmiş Halat Kullanımı: Deepseek-V3, kısmen V2'de uygulanan ayrıştırma anahtarları kavramını genişletir. "Ayrılmış paylaşılan bir anahtar" ı izleyerek, model uzun nesillerde sayısal kaymayı azaltır ve genişletilmiş diziler üzerinde kararlı performans sağlar [2].

4. Ortak KV depolama: Sıkıştırılmış anahtarları ve değerleri ayrı ayrı saklayan V2'nin aksine, V3 bunları paylaşılan bir sıkıştırılmış gösterime dönüştürür. Bu, çok düğüm çıkarım sırasında bellek trafiğini azaltarak bellek verimliliğini daha da artırır [2].

5. Katman bazında uyarlanabilir önbellek: Tüm katmanlar için tüm geçmiş jetonları önbelleğe almak yerine, v3 daha derin katmanlarda eski KV girişlerini budan. Bu, geniş bağlam pencereleriyle uğraşırken yönetilebilir sınırlar içinde bellek kullanımının korunmasına yardımcı olur [2].

Bu iyileştirmeleri uygulayarak MLA, Deepseek-V3'ün bellek ayak izini önemli ölçüde azaltır, bu da performanstan ödün vermeden uzun dizileri verimli bir şekilde işleme yeteneğine sahiptir. Bu, anahtar değeri çiftlerinin gizli vektörlere sıkıştırılmasıyla elde edilir, bu da depolanması ve işlenmesi gereken veri miktarını azaltır, böylece çıkarımı hızlandırır ve gerçek zamanlı uygulama yeteneklerini artırır [3] [5] [8].

Alıntılar:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-voling-crazy-how-eepseek
[4] https://machinelearningatscale.substack.com/p/deepseek-v3
[5] https://ai.plainenglish.io/deepseek-v3-how-they-chieved-big-results-with-scal-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7] https://www.nextplatform.com/2025/01/27/how-daid-depseek-train-ai-model-on-on-lot- ve- ronpled-hardware/
[8] https://618media.com/en/blog/top-5-features-of-depseek-v3-mould-nown/