Formatul unificat E4M3 în Deepseek-V3 contribuie semnificativ la eficiența modelului, abordând mai multe provocări asociate cu formarea cu precizie mixtă, în special cele legate de gama dinamică și precizie. Iată o explicație detaliată a modului în care acest format îmbunătățește eficiența:
Strategie de cuantificare cu granulație fină
Deepseek-V3 folosește o strategie de cuantificare cu granulație fină, care îi permite să utilizeze eficient formatul E4M3 pe toate etapele de instruire. Spre deosebire de cadrele anterioare care au folosit formate hibride FP8 (de exemplu, E4M3 pentru trecerea înainte și E5M2 pentru trecerea înapoi), abordarea Deepseek-V3 asigură că activările sunt grupate și scalate pe o bază de 1x128, în timp ce greutățile sunt scalate pe o bază de bloc 128x128 [1] [2]. Această granularitate ajută la o mai bună manipulare a valorilor exterioare prin reglarea dinamică a factorilor de scalare pentru fiecare grup, ceea ce atenuează impactul unui interval dinamic limitat inerent în formatele FP8 [3].
scalare dinamică și cuantificare online
Modelul folosește cuantificarea online, unde factorii de scalare sunt calculați dinamic pentru fiecare țiglă de activare sau bloc de greutate în timpul antrenamentului. Acest lucru elimină necesitatea menținerii valorilor maxime istorice, simplificării cadrului și îmbunătățirea preciziei [1] [2]. Prin ajustarea dinamică a acestor factori de scalare, Deepseek-V3 poate optimiza utilizarea găleților de reprezentare a numărului FP8 disponibil, asigurându-se că majoritatea valorilor nu sunt grupate într-un interval restrâns, ceea ce altfel ar duce la o precizie slabă pentru valori mai mici [3].
reducerea utilizării memoriei și a costurilor de calcul
Formatul E4M3 unificat, combinat cu cuantificarea cu granulație fină, reduce semnificativ utilizarea memoriei. Prin stocarea activărilor și a stărilor de optimizator în formate cu precizie mai mică (de exemplu, FP8 pentru activări), Deepseek-V3 minimizează cerințele de memorie, ceea ce este crucial pentru modelele la scară largă [1] [5]. În plus, utilizarea FP8 pentru calcule cheie reduce costurile de calcul, deoarece necesită procesarea mai mică a datelor în comparație cu formatele cu precizie mai mare precum FP16 sau FP32 [5].
Stabilitatea numerică îmbunătățită
Deepseek-V3 abordează, de asemenea, problema pierderii de precizie numerică asociată cu formarea FP8 prin promovarea rezultatelor parțiale la registrele FP32 la intervale specifice în timpul acumulării. Această strategie atenuează erorile cauzate de acumularea limitată a lățimii de biți în nucleele tensiunii, asigurând stabilitatea numerică și formarea fiabilă [1] [7].
În rezumat, formatul unificat E4M3 în Deepseek-V3 îmbunătățește eficiența, permițând cuantificarea cu granulație fină, scalarea dinamică, utilizarea redusă a memoriei și stabilitatea numerică îmbunătățită. Aceste inovații permit Deepseek-V3 să obțină performanțe de ultimă generație în timp ce optimizând resursele de calcul.
Citări:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-sevel-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-AI-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-tehnical-report.html
.
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-is-the-most-ostful-open-source-activitate-7278488573006200832-KTA_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officy_released_code_paper/