Deepseek-V3 Uzman Yönlendirmesinde Sigmoid Aktivasyon Fonksiyonu

Deepseek-V3'ün uzman yönlendirme sürecinde sigmoid aktivasyon işlevi ne rol oynar?

Deepseek-V3'te, Sigmoid aktivasyon fonksiyonu, jetonların uzmanlara nasıl atandığını değiştirerek uzman yönlendirme sürecinde önemli bir rol oynar. Softmax işlevi kullanan önceki sürümlerin aksine, Deepseek-V3, jetonlar ve uzmanlar arasındaki afinite puanlarını hesaplamak için bir sigmoid işlevi kullanır. Bu değişiklik, modelin birkaç uzmanı diğerlerine göre desteklediği ve uzmanlaşma ve verimliliğin faydalarını azalttığı bir durumun çökmesine yol açabilecek aşırı uzman seçim olasılıklarını önlemeye yardımcı olur.

Sigmoid Aktivasyon Fonksiyonu Uzman Yönlendirmede

$$ \ sigma (\ cdot) $$ olarak belirtilen sigmoid fonksiyonu, bir jeton ve bir uzman arasındaki afinite skorunu hesaplamak için kullanılır. Özellikle, jeton $$ t $$ ve uzman $$ i $$ için $$ s_ {i, t} $$ puanı şu şekilde hesaplanır:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
burada $$ u_t $$ jeton gömme ve $$ e_i $$ uzman $$ i $$ centroid vektörüdür. Bu puan, jetonun uzmanının uzmanlığına ne kadar iyi uyumlu olduğunu yansıtır.

Normalizasyon ve Seçim

Bu puanları hesapladıktan sonra, Deepseek-V3 bunları normalleştirir ve bu normalleştirilmiş puanlara göre en üst-$$ K_R $$ uzmanlarını seçer. Bu süreç, her bir jetonun, verimli ve özel işlemeyi teşvik ederek, kendisiyle en alakalı bir uzmanların alt kümesine yönlendirilmesini sağlar.

Yük dengeleme için önyargı terimleri

Yönlendirme çöküşünü önlemek ve uzmanlar arasında dengeli yük dağılımını sağlamak için Deepseek-V3, dinamik olarak ayarlanabilir önyargı terimleri getirir. Bu önyargı terimleri, en iyi uzmanları seçmeden önce afinite puanlarına eklenir. Bir uzman aşırı yüklenirse, önyargı terimi azalır ve düşük yüklenirse, önyargı terimi artar. Bu mekanizma, model performansını olumsuz etkileyebilen yardımcı kayıp fonksiyonlarına dayanmadan yükün dengeli kalmasını sağlar [1] [3].

Sigmoid'in Softmax üzerinden faydaları

Softmax yerine bir sigmoid fonksiyonu kullanmak, farklı uzmanların seçim olasılıklarını çözmeye yardımcı olur. Softmax'ta, olasılıklar toplam olarak normalleştirilir, bu da bir uzman önemli ölçüde tercih edildiğinde aşırı olasılıklara yol açabilir. Sigmoid ise daha esnek ve bağımsız olasılık atamalarına izin verir, bu da çökme ve daha dengeli uzman kullanımını teşvik etme olasılığını azaltır [4].

Genel olarak, Deepseek-V3'teki sigmoid aktivasyon fonksiyonu, modelin, büyük ölçekli ekspertler (MOE) karışımında yüksek performans ve hesaplama verimliliği elde etmek için çok önemli olan dengeli bir iş yükünü korurken, jetonları ilgili uzmanlara verimli bir şekilde yönlendirme yeteneğini arttırır.

Alıntılar:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-fonction