Deepseek-V3'te afinite skoru, uzmanlık karışımı (MOE) mimarisinde uzman seçim sürecinde önemli bir rol oynamaktadır. Bu mimari, girdi jetonlarına dayalı bir uzman alt kümesini dinamik olarak etkinleştirerek büyük ölçekli dil modelleme görevlerini etkili bir şekilde ele alacak şekilde tasarlanmıştır.
Affinity Puan Hesaplaması
Affinity skoru, giriş jetonunun gömülmesinin nokta ürünü ve belirli bir uzmanın sentroidi olarak hesaplanır. Centroid, her bir uzman için, uzman süreçlerin ortalama aktivasyonlarından veya girdilerinden türetilebilen temsili bir vektör olarak düşünülebilir. Bu DOT ürünü, jetonun mevcut her uzmanın uzmanlığı ile ne kadar hizalandığını ölçer.
Uzman Seçim Süreci
1. Top-K yönlendirme: Her giriş jetonu için, Deepseek-V3 en yüksek afinite puanlarına sahip ilk 8 uzmanı seçer. Bu işlem üst-K yönlendirmesi olarak bilinir, burada K bu durumda 8'e sabitlenir [1] [7].
2. Önyargı ayarı: Çok fazla jetonun aynı uzmanlara yönlendirildiği yönlendirme çöküşünü önlemek için Deepseek-V3 dinamik bir önyargı ayarı getirir. Her uzman, yönlendirme sırasında afinite skoruna eklenen bir önyargı terimi $$ b_i $$ vardır. Bir uzman aşırı yüklenirse, yanlılığı azalır ve yetersiz kullanılırsa, yanlılığı artar. Bu ayarlama, açık yardımcı kayıplar kullanmadan tüm uzmanlarda dengeli bir iş yükünün korunmasına yardımcı olur [1] [3].
3. Gating Mekanizması: Gating mekanizması her jeton için bir puan hesaplar ve bu puanlara göre en alakalı yönlendirilmiş uzmanları seçer. Bu, modelin yalnızca her jeton için gerekli uzmanları etkinleştirerek hesaplama kaynaklarını verimli bir şekilde tahsis etmesini sağlar [3].
Afinite Puanının Faydaları
- Verimlilik: Uzmanları afinite skorlarına göre seçerek, Deepseek-V3, modelin her jeton için toplam parametrelerinin yalnızca bir kısmını etkinleştirerek hesaplama maliyetlerini azaltır. Bu daha verimli çıkarım ve eğitim süreçleri ile sonuçlanır [4] [8].
- Uzmanlık: Affinity puanı uzmanlar arasında daha iyi uzmanlaşmaya izin verir. Her uzman belirli kalıplara veya görevlere odaklanabilir, modelin genel temsili gücünü ve çeşitli girdileri ele alma yeteneğini artırabilir [1] [2].
- İstikrar: Dinamik önyargı ayarı, hem eğitim hem de çıkarım sırasında istikrarı koruyarak hiçbir uzmanın aşırı yüklenmemesini sağlar. Bu, daha önceki sürümlerde bir sorun olan aşırı yükleme nedeniyle modelin jetonları düşürmesini önler [2] [3].
Özetle, Deepseek-V3'teki afinite skoru, her bir girdi jetonu için en alakalı uzmanları dinamik olarak seçmek ve model stabilitesini korurken verimli ve uzmanlaşmış işleme sağlamak için çok önemlidir.
Alıntılar:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-moodels-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integations-are-now-now-now-now-now-now
[7] https://www.linkedin.com/pulse/dynically-sectioning-sumber-expert-moe-models-nike-deepseek-rous%c4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-depseek-models-from-v3-to-r1-and-beyond