Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Meg tudja magyarázni az FP8 pontosságának szerepét a DeepSeek-V3 képzési folyamatában


Meg tudja magyarázni az FP8 pontosságának szerepét a DeepSeek-V3 képzési folyamatában


Az FP8 Precision döntő szerepet játszik a DeepSeek-V3 képzési folyamatában, jelentősen javítja a hatékonyságot és csökkenti a számítási költségeket. Itt található a szerepének részletes magyarázata:

Bevezetés az FP8 pontosságba

Az FP8 egy 8 bites lebegőpontos formátum, amely kompaktabb ábrázolást kínál a hagyományos 16 bites vagy 32 bites formátumokhoz képest. Ez a tömörség csökkenti a memóriafelhasználást és a gyorsabb számítást, így ideális a nagyszabású AI modell edzéshez, mint például a DeepSeek-V3 [3] [5].

Vegyes precíziós keret

A DeepSeek-V3 vegyes precíziós keretet alkalmaz, ahol a modell különböző részei különböző pontosságot használnak. A legtöbb számított intenzív műveletet, mint például az általános mátrix szorzás (GEMM), az FP8-ban hajtják végre a sebesség és a memória használatának optimalizálása érdekében. Ugyanakkor bizonyos olyan műveleteket, amelyek nagyobb pontosságot igényelnek, mint például a beágyazó modult, a kimeneti fejet, a MOE kapu modulokat, a normalizáló operátorokat és a figyelemfelkeltő szereplőket, nagyobb pontosságú formátumban (FP16 vagy FP32) tartják a pontosság fenntartása érdekében [1] [5].

Finom szemcsés kvantálás

Az FP8 korlátozott dinamikus tartományának kihívásainak kezelése érdekében a DeepSeek-V3 bevezet egy finom szemcsés kvantálási stratégiát. Ez magában foglalja az aktiválások 1x128 csempékbe és súlyokba történő csoportosítását 128x128 blokkokba, mindegyik egymástól függetlenül méretezve. Ez a megközelítés megakadályozza, hogy a szélsőséges értékek torzítsák a teljes tenzort, csökkentik a kvantálási hibákat és fenntartják a modell pontosságát [1] [5].

Online kvantálás

A DeepSeek-V3 online kvantációt használ, ahol a méretezési tényezőket dinamikusan kiszámítják minden aktiválási csempe vagy súlyblokkra az edzés során. Ez kiküszöböli a késleltetett kvantálási módszerek szükségességét, amelyek a történelmi maximális értékekre támaszkodnak, egyszerűsítve a keretet és javítva a pontosságot [1] [5].

megnövekedett akkumulációs pontosság

Az FP8 korlátozott felhalmozódási pontosságának a tenzormagokban történő korlátozott akkumulációs pontosságának csökkentése érdekében a DeepSeek-V3 elősegíti az FP32 regiszterek részleges eredményeit specifikus időközönként a GEMM műveletek során. Ez biztosítja, hogy a kis hibák felhalmozódása minimalizálódjon, megőrizve a modell általános pontosságát [1] [5].

Unified E4M3 formátum

A hibrid FP8 formátumokat használó korábbi keretekkel ellentétben (például E4M3 az előrehaladáshoz és az E5M2 a hátrányos átadáshoz), a DeepSeek-V3 egyetemesen alkalmazza az E4M3 formátumot. Ezt lehetővé teszi a finom szemcsés kvantálási stratégiája, amely hatékonyan megosztja az exponens biteket a csoportosított elemek között, megőrizve a pontosságot az összes számításban [1] [5].

Hatás az edzés hatékonyságára

Az FP8 pontosságának használata szignifikánsan felgyorsítja a DeepSeek-V3 képzési folyamatát. A modellt a 2048-as GPU-k adatközpontjával, mindössze két hónapon belül kiképezték, mindössze 2,664 millió H800 GPU órát igényelt az edzés előtt, és további 0,1 millió GPU órát igényelt a következő szakaszokban. Ezt a hatékonyságot az FP8 által kínált csökkentett memóriafogyasztásnak és a megnövekedett számítási sebességnek tulajdonítják [6].

Összefoglalva: az FP8 pontossága a DeepSeek-V3-ban elengedhetetlen a magas edzés hatékonyságának eléréséhez, miközben megőrzi a modell pontosságát. Gondosan integrálódik egy vegyes precíziós keretbe, kihasználva a finomszemcsés kvantálást és az online kvantálást az FP8 korlátozásainak enyhítésére.

Idézetek:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-deepseek-v3?lang=en=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-its--model-on-a-lot-llent-llent-llent--llent--less-darware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-bit-floating-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-d-fp8-mixed-precision-training/