„Deepseek-V3“: AI revoliucija su FP8 mišriais tikslumo mokymais

Kaip „FP8“ mišraus tikslumo treniruotės naudojimas daro įtaką Deepseeko našumui

„Deepseek-V3“ naudoja FP8 mišrią tikslumo treniruotę, kad žymiai padidintų jo našumą, ypač kalbant apie efektyvumą, greitį ir atminties panaudojimą. Šis metodas naudoja 8 bitų slankiojo kablelio numerius, o tai leidžia žymiai sumažinti atminties sunaudojimą maždaug perpus, palyginti su FP16 tikslumu. Dėl to „Deepseek“ gali efektyviai veikti mažiau GPU, išlaikydamas aukštą tikslumo lygį treniruotėse [1] [4] [9].

Pagrindinis FP8 poveikis Mišrus tikslus mokymas

1. Padidėjęs efektyvumas: Pasinaudojant FP8 tikslumu, „Deepseeek-V3“ pasiekia nepaprastą mokymo efektyvumą. Išankstinio modelio išankstinio mokymo etapui reikėjo tik apie 2,788 mln. GPU valandų, o tai reiškia, kad maždaug 5,576 mln. USD kaina yra žymiai mažesnė nei palyginamų modelių [2] [7] [9].

2. Pagreitintas apdorojimo greitis: FP8 priėmimas įgalina greitesnius skaičiavimus, nes sumažina duomenų dydį, kurį reikia apdoroti. Šį pagreitį papildomai papildo „DualPipe“ algoritmas, kuris optimizuoja vamzdyno paralelizmą, sutampant skaičiavimo ir ryšio fazėms, sumažindamas tuščiosios eigos laiką GPU [1] [3] [7].

3. Mastelio keitimas: sumažintas atminties pėdsakas leidžia „Deepseek-V3“ tvarkyti didesnius duomenų rinkinius ir plačiau modelio architektūras, nepatiriant papildomų skaičiavimo išlaidų. Šis mastelio keitimas yra labai svarbus kuriant pažangių kalbų modelius, kuriems reikia efektyviai apdoroti didžiulį duomenų kiekį [1] [4].

4. Patobulintas modelio našumas: FP8 mišrių tikslumo mokymų integracija nepakenks modelio tikslumui. Vietoj to, tai padidina modelio gebėjimą generuoti nuoseklų ir kontekstinę reikšmę naudojant tokius metodus kaip daugialypė prognozė (MTP), kuri moko modelį numatyti kelis žetonus vienu metu [1] [3] [9]. Ši galimybė yra ypač naudinga atliekant sudėtingas kalbines užduotis ir daugiapakopius samprotavimus.

Apibendrinant galima pasakyti, kad „FP8“ mišrių tikslumų mokymai yra kertinis „Deepseeek-V3“ architektūros akmuo, leidžiantis jai pasiekti aukštą našumą ir mažesnius išteklių reikalavimus, išlaikant tikslumą ir mastelį įvairiose AI plėtros programose.

Citatos:
[1] https://ithy.com/article/deepseek-v3-progress-in-liguage-models-huyq64wk
[2] https://opentools.ai/news/deepseeks-breakthrough-a-new-er-or-ai-with-less-compute-power
[3] https://arxiv.org/html/2412.19437v1
[4] https://www.linkedin.com/pulse/deepseek-revolutioning-ai-open-ource-reasoning-20-ramachandran-xakme
[5] https://huggingface.co/deepseek-ai/deepseek-v3
[6] https://arxiv.org/pdf/2412.19437.pdf
[7] https://adaci.org/deepseek-v3-oxplied-optimizing-fefictity-and-cale/
[8] https://stratechery.com/2025/deepseek-faq/
[9] https://guptadeepak.com/deepseek-revolutionizing-ai-with-efictificatity innovation-and-afordability/
[10] https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html