DeepSek-V3 Unified E4M3 -muoto: Mallin tehokkuuden parantaminen

Kuinka yhtenäinen E4M3-muoto edistää DeepSeek-V3: n tehokkuutta

Deepseek-V3: n yhtenäinen E4M3-muoto edistää merkittävästi mallin tehokkuutta vastaamalla useisiin sekavalmistuskoulutukseen liittyviin haasteisiin, etenkin dynaamiseen alueeseen ja tarkkuuteen liittyvät haasteet. Tässä on yksityiskohtainen selitys siitä, kuinka tämä muoto parantaa tehokkuutta:

Hienojyväinen kvantisointistrategia

Deepseek-V3 käyttää hienorakeista kvantisointistrategiaa, jonka avulla se voi käyttää tehokkaasti E4M3-muotoa kaikissa koulutuksen vaiheissa. Toisin kuin aiemmissa hybridi-FP8-muodoissa (esim. E4M3 eteenpäin suuntautuvassa passissa ja E5M2 taaksepäin kulkevassa), Deepseek-V3: n lähestymistapa varmistaa, että aktivoinnit on ryhmitelty ja skaalataan 1x128-laattapohjaisesti, kun taas painot skaalataan 128x128-lohkopohjaisesti [1] [2]. Tämä rakeisuus auttaa parantamaan poikkeavuuksia säätämällä dynaamisesti skaalauskertoimia jokaiselle ryhmälle, mikä lieventää FP8 -muodoissa ominaisen rajoitetun dynaamisen alueen vaikutusta [3].

Dynaaminen skaalaus ja online -kvantisointi

Malli käyttää online -kvantisointia, jossa skaalauskertoimet lasketaan dynaamisesti jokaiselle aktivointilaatalle tai painohalkolle harjoituksen aikana. Tämä eliminoi tarpeen ylläpitää historiallisia maksimiarvoja, yksinkertaistaen kehystä ja parantavat tarkkuutta [1] [2]. Säätämällä dynaamisesti näitä skaalaustekijöitä, Deepseek-V3 voi optimoida käytettävissä olevien FP8-numeroiden esityskauhojen käytön varmistaen, että useimmat arvot eivät ole ryhmittyneet kapealle alueelle, mikä muuten johtaisi pienten arvojen huonoon tarkkuuteen [3].

Vähentynyt muistin käyttö ja laskennalliset kustannukset

Yhtenäinen E4M3-muoto yhdistettynä hienorakeiseen kvantisointiin vähentää muistin käyttöä merkittävästi. Säilyttämällä aktivoinnit ja optimoijatiloja alhaisempiin muodoihin (esim. FP8 aktivoinnille), DeepSek-V3 minimoi muistivaatimukset, mikä on ratkaisevan tärkeää suurten malleille [1] [5]. Lisäksi FP8: n käyttö avainlaskennoissa vähentää laskennallisia kustannuksia, koska se vaatii vähemmän tietojen käsittelyä verrattuna korkeamman tarkkaan muodoihin, kuten FP16 tai FP32 [5].

Parannettu numeerinen vakaus

Deepseek-V3 käsittelee myös FP8-koulutukseen liittyviä numeerisia tarkkuushäviöitä edistämällä FP32-rekistereihin osittaisia tuloksia tietyin väliajoin kertymisen aikana. Tämä strategia lieventää virheellisiä virheitä, jotka aiheutuvat tensorisydämissä rajoitetusta bitin leveyden kertymisestä, mikä varmistaa numeerisen vakauden ja luotettavan koulutuksen [1] [7].

Yhteenvetona voidaan todeta, että Deepseek-V3: n yhtenäinen E4M3-muoto parantaa tehokkuutta sallimalla hienorakeisen kvantisoinnin, dynaamisen skaalauksen, vähentyneen muistin käytön ja parantuneen numeerisen stabiilisuuden. Nämä innovaatiot antavat Deepseek-V3: n saavuttaa huipputekniset suorituskyvyn optimoimalla laskennalliset resurssit.

Viittaukset:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deeptseeks-low-level-wware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
.
.
.
[7.
.