Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Peran apa yang dimainkan oleh fungsi aktivasi sigmoid dalam proses perutean ahli Deepseek-V3


Peran apa yang dimainkan oleh fungsi aktivasi sigmoid dalam proses perutean ahli Deepseek-V3


Dalam Deepseek-V3, fungsi aktivasi sigmoid memainkan peran penting dalam proses perutean ahli dengan memodifikasi cara token ditugaskan kepada para ahli. Tidak seperti versi sebelumnya yang menggunakan fungsi softmax, Deepseek-V3 menggunakan fungsi sigmoid untuk menghitung skor afinitas antara token dan ahli. Perubahan ini membantu mencegah probabilitas seleksi ahli yang ekstrem, yang dapat menyebabkan routing runtuhnya situasi di mana model mendukung beberapa ahli daripada yang lain, mengurangi manfaat spesialisasi dan efisiensi.

Fungsi Aktivasi Sigmoid dalam Perutean Ahli

Fungsi sigmoid, dilambangkan sebagai $$ \ sigma (\ cdot) $$, digunakan untuk menghitung skor afinitas antara token dan ahli. Secara khusus, skor $$ s_ {i, t} $$ untuk token $$ t $$ dan ahli $$ i $$ dihitung sebagai:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
di mana $$ u_t $$ adalah token embedding dan $$ e_i $$ adalah vektor centroid dari ahli $$ i $$. Skor ini mencerminkan seberapa baik token selaras dengan spesialisasi ahli.

Normalisasi dan seleksi

Setelah menghitung skor ini, Deepseek-V3 menormalkannya dan memilih ahli-$$ K_R $$ yang didasarkan pada skor yang dinormalisasi ini. Proses ini memastikan bahwa setiap token dialihkan ke subset ahli yang paling relevan dengannya, mempromosikan pemrosesan yang efisien dan khusus.

Istilah bias untuk penyeimbangan beban

Untuk mencegah rute runtuh dan memastikan distribusi beban yang seimbang di antara para ahli, Deepseek-V3 memperkenalkan istilah bias yang dapat disesuaikan secara dinamis. Istilah bias ini ditambahkan ke skor afinitas sebelum memilih para ahli teratas. Jika seorang ahli kelebihan beban, istilah biasnya berkurang, dan jika kurang beban, istilah bias meningkat. Mekanisme ini memastikan bahwa beban tetap seimbang tanpa mengandalkan fungsi kehilangan tambahan, yang dapat berdampak negatif pada kinerja model [1] [3].

manfaat sigmoid melalui softmax

Menggunakan fungsi sigmoid alih -alih softmax membantu memisahkan probabilitas seleksi dari berbagai ahli. Di SoftMax, probabilitas dinormalisasi untuk dijumlahkan ke satu, yang dapat menyebabkan probabilitas ekstrem ketika seorang ahli secara signifikan disukai. Sigmoid, di sisi lain, memungkinkan penugasan probabilitas yang lebih fleksibel dan independen, mengurangi kemungkinan rute runtuh dan mempromosikan pemanfaatan ahli yang lebih seimbang [4].

Secara keseluruhan, fungsi aktivasi sigmoid di Deepseek-V3 meningkatkan kemampuan model untuk secara efisien merutekan token ke para ahli yang relevan sambil mempertahankan beban kerja yang seimbang, yang sangat penting untuk mencapai kinerja tinggi dan efisiensi komputasi dalam arsitektur campuran skala besar (MOE).

Kutipan:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function