Sigmoido aktyvavimo funkcija „Deepseeek-V3“ ekspertų maršrutizavime

Kokį vaidmenį vaidina „Sigmoid“ aktyvavimo funkcija ekspertų maršruto parinkimo procese „Deepseek-V3“

„Deepseeek-V3“ „Sigmoid“ aktyvavimo funkcija vaidina lemiamą vaidmenį ekspertų maršruto parinkimo procese, modifikuodama, kaip priskiriami žetonams ekspertams. Skirtingai nuo ankstesnių versijų, kurios naudojo „SoftMax“ funkciją, „Deepseek-V3“ naudoja „Sigmoid“ funkciją, kad apskaičiuotų afiniteto balus tarp žetonų ir ekspertų. Šis pakeitimas padeda išvengti ekspertų atrankos tikimybių, kurios gali sukelti žlugimo maršruto nustatymą, kai modelis skatina keletą ekspertų prieš kitus, mažinant specializacijos ir efektyvumo naudą.

„Sigmoid“ aktyvavimo funkcija ekspertų maršrute

Sigmoidinė funkcija, žymima kaip $$ \ sigma (\ cdot) $$, naudojama apskaičiuojant afiniteto balą tarp žetono ir eksperto. Tiksliau, balai $$ s_ {i, t} $$ už žetoną $ $ t $ $ ir ekspertas $$ i $$ apskaičiuojamas taip:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
kur $$ u_t $$ yra žetonas įterpimas, o $$ e_i $$ yra „Centroid“ eksperto vektorius $$ i $$. Šis rezultatas atspindi tai, kaip gerai prieigos raktas suderinamas su eksperto specialybe.

Normalizavimas ir pasirinkimas

Apskaičiavę šiuos balus, „Deepseeek-V3“ juos normalizuoja ir, remdamiesi šiais normalizuotais balais, pasirenka viršutinę-$ $ k_r $ $ ekspertus. Šis procesas užtikrina, kad kiekvienas prieigos raktas būtų nukreiptas į jį svarbiausią ekspertų pogrupį, skatinantį efektyvų ir specializuotą apdorojimą.

šališkumo apkrovos balansavimo terminai

Siekdamas išvengti maršruto žlugimo ir užtikrinti subalansuotą apkrovos pasiskirstymą tarp ekspertų, „Deepseeek-V3“ pristato dinamiškai reguliuojamus šališkumo terminus. Prieš pasirinkdami aukščiausius ekspertus, šie šališkumo terminai pridedami prie giminingumo balų. Jei ekspertas yra perkrautas, jo šališkumo terminas sumažėja, o jei jis yra nepakankamas, šališkumo terminas padidėja. Šis mechanizmas užtikrina, kad apkrova išlieka subalansuota, nepasikliaujant pagalbinėmis nuostolių funkcijomis, o tai gali neigiamai paveikti modelio našumą [1] [3].

„Sigmoid“ pranašumai, palyginti su „softmax“

Naudojant „Sigmoid“ funkciją, o ne „SoftMax“, padėkite atskirti skirtingų ekspertų atrankos tikimybes. „SoftMax“ tikimybės normalizuojasi iki sumos iki vienos, o tai gali sukelti ekstremalias tikimybes, kai vienas ekspertas yra labai palankus. Kita vertus, „Sigmoid“ leidžia atlikti lankstesnes ir nepriklausomas tikimybių priskyrimas, sumažindamas tikimybę nukreipti žlugimą ir skatinti labiau subalansuotą ekspertų panaudojimą [4].

Apskritai, „Sigmoid“ aktyvavimo funkcija „Deepseeek-V3“ padidina modelio gebėjimą efektyviai nukreipti žetonus į atitinkamus ekspertus, išlaikant subalansuotą darbo krūvį, kuris yra labai svarbus norint pasiekti didelio našumo ir skaičiavimo efektyvumą didelio masto mišinio (MOE) architektūrose.

Citatos:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelarningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/underve-seepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function