في Deepseek-V3 ، تلعب درجة التقارب دورًا حاسمًا في عملية اختيار الخبراء في بنية الخبرة (MOE). تم تصميم هذه الهندسة المعمارية للتعامل مع مهام نمذجة اللغة على نطاق واسع من خلال تنشيط مجموعة فرعية من الخبراء بناءً على رموز الإدخال.
حساب نقاط التقارب
يتم حساب درجة التقارب كمنتج DOT لتضمين الرمز المميز للإدخال ونهبة وسط خبير محدد. يمكن اعتبار النقطه الوسطى هو ناقل تمثيلي لكل خبير ، والذي قد يتم اشتقاقه من متوسط التنشيط أو المدخلات التي يعالجها الخبراء. يقيس منتج DOT هذا مدى توافق الرمز المميز مع خبرة كل خبير متاح.
عملية اختيار الخبراء
1. توجيه Top-K: لكل رمز إدخال ، يختار Deepseek-V3 أفضل 8 خبراء مع أعلى درجات التقارب. تُعرف هذه العملية باسم Top-K ، حيث يتم إصلاح K في 8 في هذه الحالة [1] [7].
2. تعديل التحيز: لمنع انهيار التوجيه ، حيث يتم توجيه الكثير من الرموز المميزة إلى نفس الخبراء ، يقدم Deepseek-V3 تعديل تحيز ديناميكي. كل خبير لديه مصطلح التحيز $$ b_i $$ الذي يتم إضافته إلى درجة التقارب أثناء التوجيه. إذا تم زيادة تحميل الخبير ، فالنتقل من تحيزه ، وإذا كان غير مستغلب ، فسيتم زيادة تحيزه. يساعد هذا التعديل في الحفاظ على عبء عمل متوازن في جميع الخبراء دون استخدام خسائر مساعدة صريحة [1] [3].
3. آلية البوابات: تقوم آلية البوابات بحساب النتيجة لكل رمز واختيار الخبراء الأكثر صلة بالموضوع بناءً على هذه الدرجات. هذا يضمن أن النموذج يخصص الموارد الحسابية بكفاءة عن طريق تنشيط الخبراء اللازمة فقط لكل رمز [3].
فوائد درجة التقارب
- الكفاءة: من خلال اختيار الخبراء بناءً على درجات التقارب ، يقلل Deepseek-V3 من التكاليف الحسابية عن طريق تنشيط جزء صغير فقط من إجمالي المعلمات للنموذج لكل رمز. هذا يؤدي إلى عمليات استنتاج وتدريب أكثر كفاءة [4] [8].
- التخصص: تسمح درجة التقارب بتخصص أفضل بين الخبراء. يمكن لكل خبير أن يركز على أنماط أو مهام محددة ، مما يعزز القوة التمثيلية الشاملة للنموذج والقدرة على التعامل مع المدخلات المتنوعة [1] [2].
- الاستقرار: يضمن تعديل التحيز الديناميكي عدم وجود أي خبير بشكل زائد ، والحفاظ على الاستقرار أثناء التدريب والاستدلال. هذا يمنع النموذج من إسقاط الرموز بسبب التحميل الزائد ، والتي كانت مشكلة في الإصدارات السابقة [2] [3].
باختصار ، تعد درجة التقارب في DeepSeek-V3 أمرًا بالغ الأهمية لاختيار الخبراء الأكثر صلة بشكل حيوي لكل رمز مدخلات ، مما يضمن معالجة فعالة ومتخصصة مع الحفاظ على استقرار النموذج.
الاستشهادات:
[1] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[2] https://martinfowler.com/articles/deepeek-papers.html
[3] https://www.youtube.com/watch؟v=BV7CT-_SPQY
[4] https://www.linkedin.com/pulse/what-main-fitfit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamically-selecting-number-dexpert-moe-models-like-deepseek-rosi٪C4٪87-CKYTF
[8] https://arxiv.org/html/2412.19437v1
[9)