Sigmoid kapısının Deepseek-V3'teki Çok Başlı Gizli Dikkat (MLA) mimarisi ile nasıl etkileşime girdiğini anlamak için, hem bileşenleri hem de modeldeki rollerini parçalayalım.
Çok Başlı Gizli Dikkat (MLA)
** MLA, transformatör tabanlı modellerde dikkat mekanizmasını optimize etmek için tasarlanmış Deepseek-V3'ün temel bir bileşenidir. Geleneksel çok başlı dikkatin aksine, MLA dikkat anahtarları ve değerleri için düşük dereceli bir eklem sıkıştırması kullanır. Bu sıkıştırma, dikkat mekanizmasına girmeden önce sorgu (q), anahtar (k) ve değer (v) vektörlerinin boyutsallığını azaltır. Örneğin, girişin bir şekli varsa (sekans uzunluğu ã 2000), MLA, Q, K ve V vektörlerini bir şekline azaltabilir (dizi uzunluğu ã 100). Bu azalma, çıkarım sırasında anahtar değeri (KV) önbelleğini önemli ölçüde en aza indirir, bu da performanstan ödün vermeden daha hızlı işlem sürelerine yol açar [5] [9].
Deepseek-V3'te sigmoid geçit kaplaması
Deepseek-V3 bağlamında, sigmoid geçitleme, ekspertlerin karışımı (MOE) çerçevesi ile birlikte kullanılır. MOE çerçevesi, büyük sinir ağını 'uzmanlar' adı verilen özel alt ağlara ayırır. Her giriş için, bu uzmanların yalnızca bir alt kümesi etkinleştirilir. Sigmoid geçitleme, hangi uzmanların etkinleştirileceğine karar veren yönlendirme mekanizmasına uygulanır.
MLA ile etkileşim
MLA öncelikle dikkat sürecini optimize etmeye odaklanırken, Sigmoid Gating, Deepseek-V3'ün ayrı ama tamamlayıcı bir bileşeni olan MOE çerçevesinde rol oynar. MOE çerçevesi, jetonların farklı uzmanlara nasıl yönlendirildiğini yönetmek için sigmoid kapıyı kullanır. Bazı uzmanların diğerleri üzerinde tercih edildiği aşırı vakalara yol açabilecek geleneksel softmax geçitinden farklı olarak, sigmoid geçitleme, jetonların uzmanlar arasında daha dengeli bir dağılımını korumaya yardımcı olur. Bu denge, modelin yoğun bir model gibi davranmaya geri dönebileceği ve MOE mimarisinin verimlilik faydalarını kaybedebileceği yönlendirme çöküşünü önlemek için çok önemlidir [5].
Dinamik Önyargı Ayarı
Deepseek-V3, uzmanlar arasında yük dengelemesini sağlamak için dinamik önyargı ayarlamaları getirir. Önyargı terimleri, yönlendirme kararları vermeden önce uzman afinite puanlarına eklenir. Bu önyargılar eğitim sırasında dinamik olarak ayarlanır: Bir uzman aşırı yüklenirse, önyargısı azalır ve düşük yüklenirse yanlılığı artar. Bu mekanizma, model performansını olumsuz etkileyebilen yardımcı kayıp fonksiyonlarına dayanmadan yükün dengeli kalmasını sağlar [5].
Özetle, MLA daha hızlı çıkarım için dikkat mekanizmasını optimize ederken, MOE çerçevesindeki sigmoid geçitleme, jetonların uzmanlara yönlendirilmesinin yönetilmesine yardımcı olarak hesaplama kaynaklarının verimli ve dengeli kullanımını sağlar. Bu kombinasyon Deepseek-V3'ün genel performansını ve verimliliğini arttırır.
Alıntılar:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
[4] https://618media.com/en/blog/technical-architecture-of-depseek-v3-splained/
[5] https://machinelearningatscale.substack.com/p/deepseek-v3
[6] https://www.reddit.com/r/localllama/comments/1i4em80/interesting_article_on_how_deepseek_has_improved/
[7] https://en.wikipedia.org/wiki/transformer_(deep_learning_architecture)
[8] https://ai.gopubby.com/deepseek-v3-sesplained-2-deepseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853fefac7050