Vertaamalla asiantuntija reititysmekanismeja Deepseek-V2: ssa ja DeepSeek-V3: ssa

Mitkä ovat tärkeimmät erot asiantuntija reititysmekanismien välillä DeepSeek-V2: ssa ja DeepSeek-V3: ssa

Tärkeimmät erot DeepSeek-V2: n ja DeepSek-V3: n asiantuntijoiden reititysmekanismien välillä voidaan tiivistää seuraavasti:

Deepseek-V2-asiantuntija reititys

-Laitteen rajoitettu reititysmekanismi: DeepSeek-V2 käyttää laitteen rajoitettua reititysmekanismia asiantuntijoiden levittämiseen useiden laitteiden välillä. Tämä lähestymistapa varmistaa, että kunkin tunnuksen kohdeasiantuntijat levitetään rajoitetulle määrään laitteita, jotka valitsevat tyypillisesti K-K-asiantuntijat näistä laitteista. Tämä strategia auttaa hallitsemaan viestinnän yleiskustannuksia ja varmistaa tehokkaan rinnakkaiskäsittelyn [1] [5].

- Nämä tappiot auttavat estämään romahtamisen reitityksen varmistamalla, että yhtäkään asiantuntijaa ei käytetä liikaa, kun taas toiset pysyvät vajaakäytössä [1] [6].

- Asiantuntijoiden lukumäärä ja aktivointi: DeepSeek-V2: lla on 160 asiantuntijaa plus kaksi jaettua asiantuntijaa, ja vain kuusi asiantuntijaa aktivoidaan päätelmien aikana. Tämä selektiivinen aktivointi vähentää merkittävästi aktiivisten parametrien lukumäärää, mikä tekee mallista tehokkaamman [5].

Deepseek-V3-asiantuntija reititys

- Lisääntynyt asiantuntija-erikoistuminen: DeepSek-V3 perustuu MOE-arkkitehtuuriin lisäämällä reititettyjen asiantuntijoiden lukumäärää kerrosta kohti 60%, 160: sta 256: een. Tämä lisäys parantaa mallin tiedon ja muistin kapasiteettia [2].

- Jaetut asiantuntijat: DeepSek-V3 säilyttää jaetujen asiantuntijoiden käsitteen, joka on aina aktivoitu. Jokaisessa syöttöverkon (FFN) kerroksessa on yksi jaettu asiantuntija, ja on olemassa kolme kerrosta, joissa kaikki asiantuntijat aktivoidaan, mikä parantaa mallin kykyä kaapata yleistä tietoa tilanteissa [2] [4].

-Token-asiantuntija-affiniteetti: Tokenien osoittaminen asiantuntijoille perustuu merkkikuvaus-affiniteettiin upotustilassa. Deepseek-V3 kohtaa kuitenkin haasteita, jotka liittyvät reitityksen romahtamiseen, missä rahakkeet voidaan johdonmukaisesti ohjata samoille asiantuntijoille, mikä mahdollisesti estää muiden asiantuntijoiden koulutusta [2].

- Aggressiivinen MOE-strategia: DeepSek-V3 hyväksyy aggressiivisemman MOE-strategian hyödyntäen FP8: n tarkkuutta koulutukseen, mikä mahdollistaa tehokkaamman laskennan ja skaalaamisen. Tämä lähestymistapa mahdollistaa mallin hyödyntää harvaa aktivointia tehokkaasti optimoimalla parametrien käytön päätelmien aikana [2] [4].

Yhteenvetona voidaan todeta, että vaikka molemmat mallit käyttävät MOE-arkkitehtuureja tehokkaan reitityksen ja harvan aktivoinnin saavuttamiseen, DeepSeek-V3 parantaa tätä lähestymistapaa lisääntyneellä asiantuntija-erikoistumisella, aggressiivisemmilla MOE-strategioilla ja sopeutumisella jaettuihin asiantuntijaryhmiin. DeepSek-V2 keskittyy taloudelliseen koulutukseen ja tehokkaaseen päätelmään laitteen rajoittamalla reititys- ja kuormituksen tasapainottamisella.

Viittaukset:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chapstrat.com/p/deepseek-moe-and-v2
.
.
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA