يمكن تلخيص الاختلافات الرئيسية بين آليات توجيه الخبراء في Deepseek-V2 و Deepseek-V3 على النحو التالي:
Deepseek-V2 Tercor
-آلية التوجيه المحدودة للأجهزة: تستخدم Deepseek-V2 آلية توجيه محدودة الجهاز لتوزيع الخبراء عبر أجهزة متعددة. يضمن هذا النهج أن ينتشر الخبراء المستهدفون لكل رمز عبر عدد محدود من الأجهزة ، وعادة ما يختارون خبراء كبار K من هذه الأجهزة. تساعد هذه الاستراتيجية في إدارة النفقات العامة للاتصال وتضمن معالجة موازية فعالة [1] [5].
-الخسائر الإضافية لتوازن الحمل: تقدم Deepseek-V2 ثلاثة أنواع من الخسائر الإضافية على مستوى الخبراء ، على مستوى الجهاز ، على مستوى الاتصال للحفاظ على توازن الحمل أثناء التدريب. تساعد هذه الخسائر في منع انهيار التوجيه من خلال التأكد من عدم استخدام أي خبير واحد بشكل مفرط بينما يظل الآخر غير مستغل [1] [6].
- هذا التنشيط الانتقائي يقلل بشكل كبير من عدد المعلمات النشطة ، مما يجعل النموذج أكثر كفاءة [5].
Deepseek-V3 توجيه الخبراء
- زيادة تخصص الخبراء: يعتمد Deepseek-V3 على بنية MOE من خلال زيادة عدد الخبراء الموجهين لكل طبقة بنسبة 60 ٪ ، من 160 إلى 256. هذه الزيادة تعزز قدرة النموذج للمعرفة والذاكرة [2].
- الخبراء المشتركون: يحتفظ Deepseek-V3 بمفهوم الخبراء المشتركين ، والذي يتم تنشيطه دائمًا. كل طبقة شبكة التغذية (FFN) لديها خبير مشترك واحد ، وهناك ثلاث طبقات يتم تنشيط جميع الخبراء ، مما يحسن قدرة النموذج على التقاط المعرفة المشتركة عبر السياقات [2] [4].
-تقارب الرمز المميز إلى الخبرة: يعتمد تعيين الرموز على الخبراء على تقارب الرمز المميز في مساحة التضمين. ومع ذلك ، تواجه Deepseek-V3 تحديات تتعلق بانهيار التوجيه ، حيث يمكن توجيه الرموز باستمرار إلى نفس الخبراء ، مما يعيق تدريب الخبراء الآخرين [2].
- استراتيجية Moe العدوانية: تعتمد Deepseek-V3 استراتيجية Moe أكثر عدوانية ، باستخدام دقة FP8 للتدريب ، مما يتيح حسابًا وتوسيعًا أكثر كفاءة. يمكّن هذا النهج النموذج من الاستفادة من التنشيط المتفرق بشكل فعال ، مما يؤدي إلى تحسين استخدام المعلمات أثناء الاستدلال [2] [4].
باختصار ، في حين أن كلا النموذجين يستخدمان بنية MOE للتوجيه الفعال والتنشيط المتناثر ، فإن Deepseek-V3 يعزز هذا النهج مع زيادة تخصص الخبراء ، واستراتيجيات MOE أكثر عدوانية ، والتعديلات على تكوينات الخبراء المشتركة. يركز Deepseek-V2 على التدريب الاقتصادي والاستدلال الفعال من خلال التوجيه المحدودة للأجهزة والخسائر الإضافية الموازنة بين الحمل.
الاستشهادات:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepeek-v2-a-huge-llm-with-
[6] https://stratechery.com/2025/deepeek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch؟v=4ucnsfbqmda