DeepSeek-V3: Asiantuntijoiden reitityksen parantaminen sigmoidisella toiminnalla asiantuntijoiden arkkitehtuurin seoksessa

Kuinka sigmoidi-funktio vaikuttaa affiniteettipisteiden laskentaan Deepseek-V3: ssa

Deepseek-V3: ssa sigmoidifunktiolla on ratkaiseva rooli affiniteettipisteiden laskemisessa asiantuntija-reititykseen asiantuntijoiden (MOE) arkkitehtuurin seoksessa. Toisin kuin perinteiset MOE-mallit, jotka käyttävät usein Softmax-toimintoa affiniteettipisteiden normalisoimiseksi, DeepSeek-V3 käyttää sigmoid-toimintoa. Tämä muutos vaikuttaa malliin monin tavoin:

1. Normalisointi ja reititys: Sigmoid -funktiota käytetään affiniteettipisteiden laskemiseen, jotka sitten normalisoidaan kaikkien valittujen affiniteettipisteiden joukossa porttiarvojen tuottamiseksi. Tämä lähestymistapa mahdollistaa joustavamman ja vivahteellisemman reititysmekanismin verrattuna Softmaxiin, mikä voi joskus johtaa reitityksen romahtamiseen, jossa tietyt asiantuntijat ovat liian suosittuja [4] [7].

2. Deepseek-V3 lieventää tätä käyttämällä sigmoiditautoa ja ottamalla käyttöön bias-termejä, jotka mukautuvat dynaamisesti harjoituksen aikana. Nämä puolueellisuustermit auttavat tasapainottamaan kuormitusta asiantuntijoiden välillä luottamatta ylimääräisiin menetyksiin, jotka voivat vaikuttaa negatiivisesti mallin suorituskykyyn [4] [9].

3. Bias-termit ja dynaaminen säätö: Malli sisältää jokaiselle asiantuntijoille esitetyille puolueellisuustermeille, jotka lisätään affiniteettipisteisiin ennen ylimmän K-asiantuntijoiden valitsemista. Nämä puolueellisuustermit säädetään dynaamisesti kunkin asiantuntijan kuorman perusteella. Jos asiantuntija on ylikuormitettu, sen puolueellisuusaika vähenee ja jos se on aliarvioitu, puolueellisuustermi kasvaa. Tämä varmistaa, että tokenien tasapainoinen jakautuminen asiantuntijoiden välillä ilman lisätappioita [4] [8].

4. Tämä tappio toimii suojatoimenpiteenä vaikuttamatta merkittävästi koulutuksen kokonaisdynamiikkaan [4].

5. Solmun rajoitettu reititys: Viestinnän kustannusten hallitsemiseksi DeepSek-V3 työllistää solmua rajoitettua reititystä, jossa kukin merkki lähetetään korkeintaan M-solmuihin korkeimpien affiniteettipisteiden perusteella. Tämä strategia mahdollistaa melkein täyden laskentayhdistelmän päällekkäisyyden harjoituksen aikana, mikä parantaa tehokkuutta [4].

Kaiken kaikkiaan Sigmoid-toiminnon käyttö DeepSek-V3: ssa mahdollistaa joustavamman ja tehokkaamman reititysmekanismin, mikä edistää mallin kykyä tasapainottaa asiantuntijoiden käyttöä uhraamatta suorituskykyä.

Viittaukset:
[1] https://www.linkedin.com/posts/srijanie-dey_aibyhand-deeplearning-neuralnetworks-activity-7291477904792657920-ree_
[2] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
.
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
.
[6] https://neurips.cc/virtual/2024/poster/96407
.
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details