Sigmoidi aktiveerimisfunktsioon DeepSEEK-V3 asjatundlik marsruutimine

Millist rolli mängib sigmoidne aktiveerimisfunktsioon DeepSEEK-V3 ekspertide marsruutimisprotsessis

Deepseek-V3-s mängib sigmoidne aktiveerimisfunktsioon ekspertide marsruutimisprotsessis üliolulist rolli, muutes seda, kuidas ekspertidele määratakse. Erinevalt varasematest versioonidest, mis kasutasid SoftMaxi funktsiooni, kasutab Deepseek-V3 sigmoidfunktsiooni, et arvutada afiinsuse skoorid žetoonide ja ekspertide vahel. See muudatus aitab vältida äärmuslike ekspertide valiku tõenäosusi, mis võib viia kokkuvarisemise marsruutimiseni olukorrale, kus mudel soosib mõnda eksperti teiste ees, vähendades spetsialiseerumise ja tõhususe eeliseid.

Sigmoidi aktiveerimise funktsioon ekspertide marsruutimisel

Sigmoidset funktsiooni, mida tähistatakse kui $$ \ Sigma (\ CDOT) $$, kasutatakse afiinsuse skoori arvutamiseks sümboolse ja eksperdi vahel. Täpsemalt arvutatakse skoor $$ s_ {i, t} $$ token $$ t $$ ja Expert $$ i $$ jaoks järgmiselt:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
kus $$ u_t $$ on sümboolne manustamine ja $$ e_i $$ on eksperdi $$ i $$ keskmine vektor. See tulemus kajastab, kui hästi sümbol vastab eksperdi erialale.

normaliseerimine ja valik

Pärast nende hinnete arvutamist normaliseerib Deepseek-V3 need ja valib nende normaliseeritud hinnete põhjal ülaosa $$ k_r $$ eksperdid. See protsess tagab, et iga märk on suunatud ekspertide alamhulka, mis on selle jaoks kõige olulisemad, edendades tõhusat ja spetsiaalset töötlemist.

eelarvamuste tingimused koormuse tasakaalustamiseks

Marsruutimise kokkuvarisemise vältimiseks ja tasakaalustatud koormuse jaotuse tagamiseks ekspertide vahel tutvustab DeepSEEK-V3 dünaamiliselt reguleeritavaid eelarvamusi. Need eelarvamuste terminid lisatakse afiinsuse skooridele enne tipptasemel ekspertide valimist. Kui ekspert on ülekoormatud, väheneb selle eelarvamuste mõiste ja kui see on alakoormatud, suureneb eelarvamuste termin. See mehhanism tagab, et koormus on tasakaalus, tuginemata lisakao funktsioonidele, mis võib mudeli jõudlust negatiivselt mõjutada [1] [3].

Sigmoidi eelised softMaxi kaudu

Sigmoidfunktsiooni kasutamine Softmaxi asemel aitab erinevate ekspertide valiku tõenäosused lahti ühendada. SoftMaxis normaliseeritakse tõenäosused ühele, mis võib põhjustada äärmuslikke tõenäosusi, kui ühte eksperti eelistatakse märkimisväärselt. Sigmoid seevastu võimaldab paindlikumaid ja sõltumatumaid tõenäosusülesandeid, vähendades marsruutimise tõenäosust kokkuvarisemise ja tasakaalustatuma eksperdi kasutamise edendamiseks [4].

Üldiselt suurendab sigmoidne aktiveerimisfunktsioon DeepSEEK-V3-s mudeli võimet suunata tõhusalt märke vastavatele ekspertidele, säilitades samal ajal tasakaalustatud töökoormuse, mis on ülioluline suure jõudluse ja arvutusliku efektiivsuse saavutamiseks suuremahuliste segude segu (MOE) arhitektuurides.

Tsitaadid:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
]
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
]