Deepseek, nopeasti kasvava kiinalainen AI-startup, käyttää useita strategioita suurten merkkien pyyntöjen tehokkaaseen hallintaan, etenkin sen viimeisimmän mallin, DeepSek-V3: n kautta. Tässä mallissa hyödynnetään Experts-Seos (MOE) -arkkitehtuuria, jonka avulla se voi aktivoida selektiivisesti parametrien osajoukon jokaiselle käsiteltylle tunnukselle. Erityisesti DeepSeek-V3: lla on yhteensä 671 miljardia parametria, mutta jokaiselle tunnukselle on aktivoitu vain 37 miljardia päätelmän aikana. Tämä malli parantaa merkittävästi laskennallista tehokkuutta verrattuna perinteisiin tiheisiin malleihin, joissa kaikki parametrit kiinnitetään jokaiseen pyyntöön [1] [4].
Suorituskyvyn optimoimiseksi edelleen DeepSeek-V3 toteuttaa tehokkaan kuorman tasapainotusstrategian koko koulutus- ja päätelmäprosessien ajan. Tämä lähestymistapa varmistaa, että merkkejä ei pudoteta kummankaan vaiheen aikana. Malli ylläpitää hyvää kuormitustasoa hyödyntämällä rajoitettua reititysmekanismia, joka rajoittaa viestintäkustannuksia ja mahdollistaa melkein täydellisen laskentayhdistyksen päällekkäisyyden. Seurauksena on, että DeepSek-V3 pystyy käsittelemään suuria määriä merkkipyyntöjä uhraamatta suorituskykyä tai luotettavuutta [2] [4].
Koulutuksen kannalta Deepseek-V3 on ennakkokoulutus laajassa tietojoukossa, joka käsittää 14,8 biljoonaa rahakketta, jota seuraa valvotun hienosäätö- ja vahvistusoppimisen vaiheet parantamaan sen kykyjä. Koulutusprosessi on suunniteltu vakaaksi ja tehokkaaksi, ja se suorittaa alle kahdessa kuukaudessa, ja kokonaiskustannukset ovat noin 5,576 miljoonaa dollaria GPU -tunnissa [1] [2]. Tämä resurssien tehokas käyttö antaa DeepSeekille skaalata tehokkaasti, kun hallitaan suuria merkkipyyntöjä sen palveluiden välillä.
Kaiken kaikkiaan Deepekin innovatiivinen arkkitehtuuri ja strategiset lähestymistavat antavat sille mahdollisuuden käsitellä huomattavia merkkipyyntöjä tehokkaasti, mikä tekee siitä kilpailukykyisen toimijaa AI -maisemassa.
Viittaukset:
.
[2] https://arxiv.org/html/2412.19437v1
.
[4] https://encord.com/blog/deepseek-ai/
.
.
.
.