DeepSEEK-V3 Unified E4M3 vorming: mudeli efektiivsuse suurendamine

Kuidas aitab ühtne E4M3-vorming soodustada DeepSEEK-V3 tõhusust

Ühendatud E4M3-vorming DeepSEEK-V3-s aitab märkimisväärselt kaasa mudeli tõhususele, käsitledes mitmeid väljakutseid, mis on seotud segaministri koolitusega, eriti need, mis on seotud dünaamilise ulatuse ja täpsusega. Siin on üksikasjalik selgitus selle kohta, kuidas see vorming tõhusust suurendab:

peeneteraline kvantimisstrateegia

Deepseek-V3 kasutab peeneteralist kvantimisstrateegiat, mis võimaldab tal tõhusalt kasutada E4M3 vormingut kõigis treeningjärkudes. Erinevalt varasematest raamistikest, mis kasutasid hübriidset FP8-vormingut (nt E4M3 edasiliikumiseks ja E5M2 tagurpidi jaoks), tagab Deepseek-V3 lähenemisviis, et aktiveerimised rühmitatakse ja skaleeritakse 1X128 plaadi alusel, samas kui kaalud skaleeritakse 128x128 bloki alusel [1] [2]. See detailsus aitab kõrvalekaldeid paremini käsitseda, kohandades dünaamiliselt iga rühma skaleerimistegureid, mis leevendab FP8 -vormingutele omase piiratud dünaamilise ulatuse mõju [3].

Dünaamiline skaleerimine ja veebipõhine kvantifitseerimine

Mudel kasutab veebipõhist kvantimist, kus mastaabifaktorid arvutatakse dünaamiliselt iga aktiveerimisplaadi või kaaluploki jaoks treeningu ajal. See välistab vajaduse säilitada ajaloolisi maksimaalse väärtusi, lihtsustades raamistikku ja parandades täpsust [1] [2]. Nende mastaabifaktorite dünaamiliselt kohandades saab DeepSEEK-V3 optimeerida saadaolevate FP8 numbri esitusämbrite kasutamist, tagades, et enamik väärtusi ei ole kitsasse vahemikku rühmitatud, mis muidu põhjustaks väiksemate väärtuste jaoks halva täpsuse [3].

Vähendatud mälu kasutamine ja arvutuskulud

Ühendatud E4M3 vorming koos peeneteralise kvantimisega vähendab mälu kasutamist märkimisväärselt. Salvestades aktiveerimist ja optimeerija olekuid madalamate arvuga vormingutes (nt FP8 aktiveerimiseks), minimeerib DeepSEEK-V3 mäluvajadusi, mis on ülioluline suuremahuliste mudelite jaoks [1] [5]. Lisaks vähendab FP8 kasutamine võtmearvutuste jaoks arvutuskulusid, kuna see nõuab vähem andmete töötlemist võrreldes kõrgema täpsusega vormingutega nagu FP16 või FP32 [5].

Täiustatud numbriline stabiilsus

Deepseek-V3 tegeleb ka FP8 väljaõppega seotud numbrilise täpsuskaotusega, edendades akumuleerumise ajal konkreetsete intervallidega FP32 registrite osalisi tulemusi. See strateegia leevendab vigu, mis on põhjustatud tenso südamike piiratud laiuse kogunemisest, tagades numbrilise stabiilsuse ja usaldusväärse koolituse [1] [7].

Kokkuvõtlikult suurendab ühtne E4M3-vorming DeepSEEK-V3 efektiivsust, võimaldades peeneteralise kvantimist, dünaamilist skaleerimist, vähenenud mälu kasutamist ja paremat numbrilist stabiilsust. Need uuendused võimaldavad DeepSEEK-V3 saavutada tipptasemel jõudlust, optimeerides samal ajal arvutusressursse.

Tsitaadid:
]
[2] https://research.meekolab.com/deepseeks-bod-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-oken-source-ai-revolution
]
]
]
]