Mitä toimenpiteitä DeepSekek ryhtyy estämään merkkien putoaminen harjoituksen aikana

DeepSeek käyttää useita strategioita, joiden avulla tunnukset putoavat koulutuksen aikana, etenkin sen kokeilun (MOE) arkkitehtuurissa. Tässä ovat keskeiset toimenpiteet:

1. Token-pudotusstrategia: DeepSeek hyödyntää merkkien viisasta pudotusmenetelmää, joka perustuu reititystodennäköisyyksiin, kuten tavanomaiset MOE-mallit. Tämä tarkoittaa, että rahakkeet hylätään heidän pisteidensä mukaan, mikä varmistaa, että vain vähiten tärkeät rahakkeet hylätään, kun tunnusluku ylittää tietyn kapasiteetin. Kapasiteetti lasketaan eri tavalla riippuen siitä, onko painopiste asiantuntijan tai laitteen ulottuvuuteen, mikä auttaa hallitsemaan, miten eri asiantuntijat tai laitteet käsittelevät merkkejä tehokkaasti [1].

2. Laitetason tokenin pudotus: Strategia toimii pääasiassa laitetasolla, jossa kaikki asiantuntijoiden pisteet lajitellaan, ja rahakkeet, joilla on pienimmät todennäköisyydet, pudotetaan. Tämä varmistaa, että kukin laite pystyy hallitsemaan kuormansa ylittämättä yhtäkään yksittäistä asiantuntijaa säilyttäen samalla suorituskyvyn kokonaistehokkuuden [1].

3. Taattu tunnusten pidätys: DeepSeek on toteuttanut erityisen strategian varmistaakseen, että noin 10% koulutusjaksoista saatuista rahakkeista ei koskaan pudota. Tämä on ratkaisevan tärkeää koulutustietojen eheyden ylläpitämiseksi ja tärkeän tiedon säilyttämiseksi koko koulutusprosessin ajan [2] [6].

4. Kuorman tasapainotus: Uusimmassa versiossa, Deepseek-V3, käytetään tehokasta kuorman tasapainotusstrategiaa, joka eliminoi tarpeen, että tokenia putoaa kokonaan koulutuksen aikana. Säätämällä dynaamisesti asiantuntijakuormia ja hyödyntämällä monivuotista ennustetavoitetta, Deepseek-V3 ylläpitää tasapainoista rahakkeiden jakautumista asiantuntijoiden välillä, estäen siten tiedon menettämisen koulutuksen aikana [2].

Nämä toimenpiteet heijastavat Deepseekin sitoutumista koulutusprosessien optimoimiseen minimoimalla tietojen menetyksen ja maksimoimalla laskennallisen tehokkuuden.

Viittaukset:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
.
[4] https://planetbanatt.net/articles/deepseek.html
.
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
.