Sigmoidinen aktivointitoiminto DeepSek-V3-asiantuntija reitityksessä

Mikä rooli Sigmoid-aktivointitoiminnolla on Deepseek-V3: n asiantuntija reititysprosessissa

Deepseek-V3: ssa sigmoidinen aktivointifunktio on tärkeä rooli asiantuntijoiden reititysprosessissa muuttamalla kuinka rahakkeet määritetään asiantuntijoille. Toisin kuin aikaisemmissa versioissa, jotka käyttivät Softmax-toimintoa, DeepSeek-V3 käyttää sigmoid-toimintoa laskeakseen affiniteettipisteet rahakkeiden ja asiantuntijoiden välillä. Tämä muutos auttaa estämään äärimmäisen asiantuntijoiden valintatodennäköisyydet, mikä voi johtaa reitityksen romahtamiseen tilanteeseen, jossa malli suosii muutamaa asiantuntijaa muihin nähden, vähentäen erikoistumisen ja tehokkuuden etuja.

sigmoidinen aktivointitoiminto asiantuntijareitityksessä

Sigmoid -toimintoa, jota on merkitty $$ \ sigma (\ cdot) $$, käytetään laskemaan affiniteettipiste tunnuksen ja asiantuntijan välillä. Erityisesti pisteet $$ S_ {i, t} $$ token $$ t $$ ja asiantuntija $$ I $$ lasketaan seuraavasti:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Missä $$ u_t $$ on tunnuksen upotus ja $$ e_i $$ on asiantuntijan $$ $$ keskikohde vektori. Tämä pistemäärä heijastaa sitä, kuinka hyvin merkki on yhdenmukainen asiantuntijan erikoisuuden kanssa.

normalisointi ja valinta

Näiden pisteiden laskemisen jälkeen DeepSek-V3 normalisoi ne ja valitsee ylhäältä-$$ K_R $$ -asiantuntijat näiden normalisoitujen pisteiden perusteella. Tämä prosessi varmistaa, että jokainen merkki johdetaan osajoukkoon asiantuntijoille, jotka ovat sille merkityksellisimpiä, edistäen tehokasta ja erikoistunutta prosessointia.

puolueellisuusehdot kuorman tasapainottamiseksi

Reitityksen romahtamisen estämiseksi ja tasapainotetun kuormituksen jakautumisen varmistamiseksi asiantuntijoiden keskuudessa Deepseek-V3 tuo dynaamisesti säädettäviä puolueellisuustermejä. Nämä puolueellisuustermit lisätään affiniteettipisteisiin ennen ylimmän asiantuntijoiden valitsemista. Jos asiantuntija on ylikuormitettu, sen puolueellisuusaika vähenee, ja jos se on aliarvioitu, puolueellisuustermi nostetaan. Tämä mekanismi varmistaa, että kuorma pysyy tasapainossa luottamatta apuläviötoimintoihin, mikä voi vaikuttaa negatiivisesti mallin suorituskykyyn [1] [3].

Sigmoidin edut Softmaxissa

Sigmoid -toiminnon käyttäminen Softmaxin sijasta auttaa erottamaan eri asiantuntijoiden valintatodennäköisyydet. SoftMaxissa todennäköisyydet normalisoidaan summan yhdeksi, mikä voi johtaa äärimmäisiin todennäköisyyksiin, kun yksi asiantuntija on merkittävästi suosittu. Sigmoid puolestaan mahdollistaa joustavammat ja riippumattomat todennäköisyystehtävät vähentämällä reitityksen romahtamisen todennäköisyyttä ja edistää tasapainoisempaa asiantuntijoiden käyttöä [4].

Kaiken kaikkiaan Sigmoid-aktivointifunktio DeepSek-V3: ssa parantaa mallin kykyä reitittää rahakkeita tehokkaasti asiaankuuluville asiantuntijoille säilyttäen samalla tasapainoisen työmäärän, joka on ratkaisevan tärkeä korkean suorituskyvyn ja laskennallisen tehokkuuden saavuttamiseksi suurten kokeellisten seoksen (MOE) arkkitehtuureissa.

Viittaukset:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
.
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-Function