دقة FP8 في Deepseek-V3: تعزيز الكفاءة وخفض التكاليف في تدريب الذكاء الاصطناعي

تلعب FP8 Precision دورًا مهمًا في عملية تدريب Deepseek-V3 ، مما يعزز بشكل كبير الكفاءة وتقليل التكاليف الحسابية. إليك شرح مفصل لدوره:

مقدمة لدقة FP8

FP8 هو تنسيق عائم 8 بت يوفر تمثيلًا أكثر إحكاما مقارنةً بتنسيقات التقليدية 16 بت أو 32 بت. ينتج عن هذا الانضغاط انخفاض استخدام الذاكرة والحساب الأسرع ، مما يجعله مثاليًا للتدريب على نموذج الذكاء الاصطناعي على نطاق واسع مثل Deepseek-V3 [3] [5].

إطار عمل مختلط

يستخدم Deepseek-V3 إطارًا دقيقًا مختلطًا ، حيث تستخدم أجزاء مختلفة من النموذج مستويات مختلفة من الدقة. يتم إجراء معظم العمليات كثيفة الحسابات ، مثل تكاثر المصفوفة العامة (GEMM) ، في FP8 لتحسين استخدام السرعة واستخدام الذاكرة. ومع ذلك ، يتم الاحتفاظ ببعض العمليات التي تتطلب دقة أعلى ، مثل وحدة التضمين ، ورأس الإخراج ، ووحدات بوابات Moe ، ومشغلي التطبيع ، ومشغلي الانتباه ، في تنسيقات دقيقة (FP16 أو FP32) للحفاظ على الدقة [1] [5].

القياس الدقيق الحبيبات

لمواجهة تحديات النطاق الديناميكي المحدود لـ FP8 ، يقدم Deepseek-V3 استراتيجية قياس كميات دقيقة. يتضمن ذلك تجميع عمليات التنشيط في البلاط والأوزان 1x128 إلى كتل 128 × 128 ، كل منها يتم تحجيمه بشكل مستقل. يمنع هذا النهج القيم المتطرفة من تشويه الموتر بأكمله ، مما يقلل من أخطاء القياس الكمي والحفاظ على دقة النموذج [1] [5].

قياس الكمية عبر الإنترنت

يستخدم Deepseek-V3 القياس الكمي عبر الإنترنت ، حيث يتم حساب عوامل التحجيم ديناميكيًا لكل بلاط التنشيط أو كتلة الوزن أثناء التدريب. هذا يزيل الحاجة إلى تأخير طرق القياس الكمي التي تعتمد على القيم القصوى التاريخية ، وتبسيط الإطار وتحسين الدقة [1] [5].

زيادة دقة التراكم

للتخفيف من الأخطاء الناجمة عن دقة التراكم المحدودة في FP8 في نوى الموتر ، يعزز Deepseek-V3 النتائج الجزئية إلى سجلات FP32 على فترات محددة خلال عمليات GEMM. هذا يضمن تقليل تراكم الأخطاء الصغيرة ، مع الحفاظ على الدقة الكلية للنموذج [1] [5].

تنسيق E4M3 الموحد

على عكس الأطر السابقة التي استخدمت تنسيقات FP8 الهجينة (على سبيل المثال ، E4M3 للمرور الأمامي و E5M2 للمرور المتخلف) ، يعتمد Deepseek-V3 عالميًا تنسيق E4M3. يتم تحقيق ذلك من خلال استراتيجية القياس الكمي الدقيق ، والتي تشترك بفعالية في البتات الأساسية بين العناصر المجمعة ، مع الحفاظ على الدقة في جميع الحسابات [1] [5].

التأثير على كفاءة التدريب

إن استخدام دقة FP8 يسرع بشكل كبير عملية تدريب Deepseek-V3. تم تدريب النموذج باستخدام مركز بيانات من 2048 وحدات معالجة الرسومات في حوالي شهرين فقط ، والتي تتطلب فقط 2.664 مليون ساعة من GPU ساعة لتدريب ما قبل التدريب و 0.1 مليون ساعة GPU إضافية للمراحل اللاحقة. تعزى هذه الكفاءة إلى انخفاض استهلاك الذاكرة وزيادة السرعة الحسابية التي توفرها FP8 [3] [6].

باختصار ، تعتبر دقة FP8 في Deepseek-V3 أمرًا بالغ الأهمية لتحقيق كفاءة التدريب العالية مع الحفاظ على دقة النموذج. تم دمجها بعناية في إطار عمل مختلط ، والاستفادة من القياس الدقيق الحبيبات والتكميات عبر الإنترنت للتخفيف من حدود FP8.

الاستشهادات:
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeaways-drom-deepseek-v3؟lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[4 "
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-bit-point-point-fp8-qi-he-e3dgf
[6] https://huggingface.co/Deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepeek-papers.html
[8]

هل يمكنك شرح دور دقة FP8 في عملية تدريب Deepseek-V3