Funkcija aktivacije sigmoida v strokovnem usmerjanju Deepseek-V3

Kakšno vlogo ima funkcija sigmoidne aktivacije v procesu strokovnega usmerjanja Deepseek-V3

V Deepseek-V3 ima funkcija sigmoidne aktivacije ključno vlogo v procesu strokovnega usmerjanja s spreminjanjem, kako so žetoni dodeljeni strokovnjakom. Za razliko od prejšnjih različic, ki so uporabljale funkcijo SoftMax, Deepseek-V3 uporablja sigmoidno funkcijo za izračun rezultatov afinitete med žetoni in strokovnjaki. Ta sprememba pomaga preprečiti ekstremne verjetnosti izbire strokovnih strok, kar lahko privede do propada usmerjanja, ko model daje prednost nekaj strokovnjakom nad drugimi, kar zmanjšuje prednosti specializacije in učinkovitosti.

Funkcija aktivacije sigmoida pri strokovnem usmerjanju

Funkcija Sigmoida, označena kot $$ \ sigma (\ cdot) $$, se uporablja za izračun ocene afinitete med žetonom in strokovnjakom. Natančneje, ocena $$ s_ {i, t} $$ za žeton $$ t $$ in strokovnjak $$ i $$ se izračuna kot:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Kjer je $$ U_T $$ vdelava žetona in $$ e_i $$ je centroidni vektor strokovnjaka $$ i $$. Ta rezultat odraža, kako dobro se žeton uskladi s posebnostjo strokovnjaka.

Normalizacija in izbira

Po izračunu teh rezultatov jih Deepseek-V3 normalizira in izbere vrhunske strokovnjake $$ K_R $$ na podlagi teh normaliziranih rezultatov. Ta postopek zagotavlja, da je vsak žeton usmerjen v podskupino strokovnjakov, ki so zanj najbolj pomembni, kar spodbuja učinkovito in specializirano obdelavo.

Pogoji pristranskosti za uravnoteženje obremenitve

Da bi preprečili propad usmerjanja in zagotovili uravnoteženo porazdelitev obremenitve med strokovnjaki, Deepseek-V3 uvaja dinamično nastavljive izraze pristranskosti. Ti izrazi pristranskosti so dodani v ocene afinitete, preden izberejo najvišje strokovnjake. Če je strokovnjak preobremenjen, se njen pristranskost zmanjšuje in če je premalo, se izraz pristranskosti poveča. Ta mehanizem zagotavlja, da obremenitev ostane uravnotežena, ne da bi se zanašala na funkcije pomožne izgube, kar lahko negativno vpliva na delovanje modela [1] [3].

Prednosti Sigmoida nad Softmaxom

Uporaba sigmoidne funkcije namesto SoftMax pomaga ločiti izbiro verjetnosti različnih strokovnjakov. V Softmaxu se verjetnosti normalizirajo, da seštejejo na eno, kar lahko privede do izjemnih verjetnosti, ko je en strokovnjak naklonjen. Sigmoid na drugi strani omogoča bolj prilagodljive in neodvisne verjetnostne dodelitve, kar zmanjšuje verjetnost propada usmerjanja in spodbuja bolj uravnoteženo uporabo strokovno uporabo [4].

Na splošno funkcija sigmoidne aktivacije v Deepseek-V3 poveča sposobnost modela, da učinkovito usmeri žetone ustreznim strokovnjakom, hkrati pa ohranja uravnoteženo delovno obremenitev, kar je ključnega pomena za doseganje visoke zmogljivosti in računske učinkovitosti v obsežnih arhitekturah mešanic (MOE).

Navedbe:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearnAtscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/undermarating-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-loarning/sigmoid-activation-function