Sigmoid-portilla Deepseek-V3: ssa on ratkaiseva rooli reitityksen romahtamisen estämisessä, joka on yleinen kysymys kokeellisissa (MOE) malleissa, joissa muutama asiantuntija suositaan jatkuvasti muihin, mikä johtaa mallisiresurssien tehottomaan koulutukseen ja hyödyntämiseen. Näin sigmoidinen portti auttaa:
Perinteinen softmax -portti vs. sigmoid -portti
Perinteiset MOE-mallit käyttävät usein Softmax-porttia, mikä voi johtaa "voittaja-kaikki" -skenaarioon. SoftMax -lähdöt normalisoidaan sen varmistamiseksi Tämä voi aiheuttaa muiden asiantuntijoiden vajaakäyttöön ja aliravitutkimuksiin, mikä johtaa reitityksen romahtamiseen.
Sitä vastoin Sigmoid -portti antaa jokaiselle asiantuntijalle pisteet välillä 0 - 1 itsenäisesti ilman normalisointia asiantuntijoiden välillä. Tämä tarkoittaa, että useilla asiantuntijoilla voi olla korkeat pisteet samanaikaisesti, mikä mahdollistaa tokenien tasapainoisemman jakauman asiantuntijoiden välillä. Sigmoid -portti ei pane täytäntöön tiukkaa kilpailua asiantuntijoiden välillä, mikä vähentää romahtamisen todennäköisyyttä varmistamalla, että jokainen asiantuntija saa oikeudenmukaisen mahdollisuuden osallistua [1] [4] [6].
Dynaaminen ennakkoluulo
Deepseek-V3 parantaa edelleen sigmoidia porttia ottamalla käyttöön dynaaminen puolueellisuustermit jokaiselle asiantuntijalle. Nämä puolueellisuudet säädetään koulutuksen aikana kunkin asiantuntijan kuorman perusteella. Jos asiantuntija on ylikuormitettu, sen puolueellisuus on vähentynyt estämään edelleen reititystä siihen, kun taas alikuormitettujen asiantuntijoiden puolueellisuudet lisääntyvät houkuttelemaan enemmän merkkejä. Tämä dynaaminen säätö auttaa ylläpitämään tasapainoista kuormaa kaikkien asiantuntijoiden välillä, estäen yhtä asiantuntijaa hallitsemaan reitityspäätöksiä ja estämään siten reitityksen romahduksen [2] [4] [6].
Hierarkkinen portti
DeepSeek-V3 käyttää myös hierarkkista porttia, mikä soveltaa harvinaisuusrajoituksia useilla tasoilla. Aluksi tehdään karkea valikoima asiantuntijoita, mitä seuraa hienompi suodatus valituissa ryhmissä. Tämä hierarkkinen lähestymistapa varmistaa, että jokaiselle tunnukselle aktivoidaan monipuolinen asiantuntijaryhmä, vähentäen edelleen reitityksen romahtamisen riskiä estämällä ylikuormitusta ja rohkaisemalla yleistymistä eri alueilla [1] [6].
Solmun rajoitettu reititys
Lisäksi DeepSeek-V3 käyttää solmua rajoitettua reititystä, mikä rajoittaa solmujen lukumäärää, joiden kanssa jokainen merkki voi kommunikoida. Tämä strategia minimoi ristikkäisen viestinnän yleiskustannuksen, varmistaen tehokkaan koulutuksen ja päätelmän säilyttäen samalla tasapainoisen asiantuntijoiden käytön [6].
Yhteenvetona voidaan todeta, että Sigmoid-portti Deepseek-V3: ssa auttaa estämään reitityksen romahduksen sallimalla useiden asiantuntijoiden aktivoinnin samanaikaisesti pakottamatta tiukkaa kilpailua heidän keskuudessaan. Dynaaminen puolueellisuuden säätö ja hierarkkinen portti varmistavat edelleen, että kutakin asiantuntijaa käytetään tehokkaasti, ylläpitäen tasapainoista kuormaa ja estävät asiantuntijaa hallitsemasta reitityspäätöksiä.
Viittaukset:
.
[2] https://martinfowler.com/articles/deepseek-pappers.html
[3] https://epochai.substack.com/p/how-has-deepsek-improved-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
.
.