Sigmoid aktivizācijas funkcija DeepSEEK-V3 ekspertu maršrutēšanā

Kāda loma ir sigmoīdu aktivizācijas funkcijai DeepSEEK-V3 ekspertu maršrutēšanas procesā

DeepSEEK-V3 sigmoīdu aktivizācijas funkcijai ir izšķiroša loma ekspertu maršrutēšanas procesā, modificējot to, kā žetoni tiek piešķirti ekspertiem. Atšķirībā no iepriekšējām versijām, kurās tika izmantota Softmax funkcija, DeepSEEK-V3 izmanto sigmoid funkciju, lai aprēķinātu afinitātes rādītājus starp žetoniem un ekspertiem. Šīs izmaiņas palīdz novērst ārkārtējas ekspertu atlases varbūtības, kas var izraisīt sliedes sliedes situāciju, kad modelis dod priekšroku dažiem ekspertiem pār citiem, samazinot specializācijas un efektivitātes priekšrocības.

sigmoid aktivizācijas funkcija ekspertu maršrutē

Sigmoid funkcija, kas apzīmēta kā $$ \ sigma (\ cdot) $$, tiek izmantota, lai aprēķinātu afinitātes punktu skaitu starp marķieri un ekspertu. Konkrēti, rezultāts $$ S_ {i, t} $$ marķierim $$ t $$ un eksperts $$ I $$ tiek aprēķināts šādi:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
kur $$ u_t $$ ir marķiera iegulšana un $$ e_i $$ ir eksperta $$ i $$ centra vektors. Šis rezultāts atspoguļo to, cik labi marķieris atbilst eksperta specialitātei.

Normalizācija un atlase

Pēc šo punktu skaita aprēķināšanas DeepSeek-V3 tos normalizē un izvēlas augšdaļu-$$ K_R $$ ENSTRUMENTI, pamatojoties uz šiem normalizētajiem rādītājiem. Šis process nodrošina, ka katrs marķieris tiek novirzīts uz ekspertu apakškopu, kas tai ir visatbilstošākais, veicinot efektīvu un specializētu apstrādi.

BIAS termini slodzes līdzsvarošanai

Lai novērstu maršrutēšanas sabrukumu un nodrošinātu līdzsvarotu slodzes sadalījumu starp ekspertiem, DeepSEEK-V3 ievieš dinamiski regulējami aizspriedumu termini. Šie aizspriedumu termini tiek pievienoti afinitātes rādītājiem pirms labāko ekspertu izvēles. Ja eksperts ir pārslogots, tā aizspriedumu termins tiek samazināts, un, ja tas ir nepietiekami ielādēts, tiek palielināts neobjektivitātes termins. Šis mehānisms nodrošina, ka slodze paliek līdzsvarota, nepaļaujoties uz palīgdarbības zaudēšanas funkcijām, kas var negatīvi ietekmēt modeļa veiktspēju [1] [3].

Sigmoid ieguvumi salīdzinājumā ar Softmax

Sigmoid funkcijas izmantošana Softmax vietā palīdz atdalīt dažādu ekspertu atlases varbūtības. SoftMax varbūtības tiek normalizētas līdz vienai, kas var izraisīt ārkārtējas varbūtības, kad viens eksperts ir ievērojami atbalstīts. No otras puses, Sigmoid ļauj elastīgāk un neatkarīgākus varbūtības uzdevumus, samazinot sabrukšanas iespējamību un veicinot līdzsvarotāku ekspertu izmantošanu [4].

Kopumā sigmoīda aktivizācijas funkcija DeepSEEK-V3 uzlabo modeļa spēju efektīvi novirzīt marķierus uz attiecīgajiem ekspertiem, vienlaikus saglabājot līdzsvarotu darba slodzi, kas ir būtiska, lai sasniegtu augstas veiktspējas un skaitļošanas efektivitāti liela mēroga eksemplāru (MOE) arhitektūrā.

Atsauces:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/runstanding-depseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-aktivation-function