يساهم تنسيق E4M3 الموحد في DeepSeek-V3 بشكل كبير في كفاءة النموذج من خلال مواجهة العديد من التحديات المرتبطة بالتدريب المختلط ، وخاصة تلك المتعلقة بالنطاق الديناميكي والدقة. فيما يلي تفسير مفصل لكيفية تعزيز هذا التنسيق:
استراتيجية القياس الكمي الدقيق
تستخدم Deepseek-V3 استراتيجية قياس كمية دقيقة ، والتي تسمح لها باستخدام تنسيق E4M3 بشكل فعال في جميع مراحل التدريب. على عكس الأطر السابقة التي استخدمت تنسيقات FP8 الهجينة (على سبيل المثال ، E4M3 للمرور الأمامي و E5M2 للمرور الخلفي) ، يضمن نهج Deepseek-V3 تجميع التنشيطات وتوسيع نطاقها على أساس البلاط 1x128 ، في حين يتم توسيع الأوزان على أساس كتلة 128x128 [1] [2]. تساعد هذه الحبيبات في التعامل بشكل أفضل مع القيم المتطرفة عن طريق ضبط عوامل التحجيم لكل مجموعة ديناميكيًا ، مما يخفف من تأثير النطاق الديناميكي المحدود المتأصل في تنسيقات FP8 [3].
التحجيم الديناميكي والكمية عبر الإنترنت
يستخدم النموذج القياس الكمي عبر الإنترنت ، حيث يتم حساب عوامل التحجيم ديناميكيًا لكل بلاط التنشيط أو كتلة الوزن أثناء التدريب. هذا يلغي الحاجة إلى الحفاظ على الحد الأقصى التاريخية للقيم ، وتبسيط الإطار وتحسين الدقة [1] [2]. من خلال ضبط عوامل التحجيم هذه ، يمكن لـ Deepseek-V3 تحسين استخدام دلاء تمثيل FP8 المتاحة ، مما يضمن عدم تجميع معظم القيم في نطاق ضيق ، مما قد يؤدي إلى ضعف الدقة للقيم الأصغر [3].
خفض استخدام الذاكرة والتكاليف الحسابية
يقلل تنسيق E4M3 الموحد ، جنبًا إلى جنب مع القياس الدقيق للحبيبات ، بشكل كبير من استخدام الذاكرة. من خلال تخزين حالات التنشيط وحالات المُحسّنة في تنسيقات الدقة المنخفضة (على سبيل المثال ، FP8 للتنشيطات) ، يقلل Deepseek-V3 متطلبات الذاكرة ، وهو أمر بالغ الأهمية للنماذج واسعة النطاق [1] [5]. بالإضافة إلى ذلك ، فإن استخدام FP8 للحسابات الرئيسية يقلل من التكاليف الحسابية ، حيث يتطلب معالجة بيانات أقل مقارنة بالتنسيقات ذات الدقة العالية مثل FP16 أو FP32 [5].
تعزيز الاستقرار العددي
يعالج Deepseek-V3 أيضًا مسألة فقدان الدقة العددية المرتبطة بتدريب FP8 من خلال تعزيز النتائج الجزئية إلى سجلات FP32 على فترات زمنية محددة أثناء التراكم. هذه الاستراتيجية تخفف من الأخطاء الناجمة عن تراكم عرض البتات المحدود في نوى الموتر ، مما يضمن الاستقرار العددي والتدريب الموثوق [1] [7].
باختصار ، يعزز تنسيق E4M3 الموحد في DeepSeek-V3 الكفاءة من خلال السماح بتكوين الحبيبات الدقيقة ، والتوسيع الديناميكي ، واستخدام الذاكرة المنخفض ، والاستقرار العددي المحسّن. تمكن هذه الابتكارات Deepseek-V3 من تحقيق أداء أحدث مع تحسين الموارد الحسابية.
الاستشهادات:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-drom-deepseek-v3؟lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-technical-report.html
[6]
[7]
[8]