بوابات السيني في Deepseek-V3: منع انهيار التوجيه في نماذج الخبراء الخبرة

يلعب بوابات السيني في Deepseek-V3 دورًا حاسمًا في منع انهيار التوجيه ، وهي مشكلة شائعة في نماذج الخبراء في خليط الخبراء (MOE) حيث يفضل بعض الخبراء باستمرار على الآخرين ، مما يؤدي إلى عدم كفاءة التدريب واستخدام موارد النموذج. إليك كيف يساعد Sigmoid Gating:

Gating Softmax التقليدية مقابل البوابات السيغمود

غالبًا ما تستخدم نماذج MOE التقليدية Gating Softmax ، والتي يمكن أن تؤدي إلى سيناريو "الفائز بجميع". يتم تطبيع مخرجات SoftMax للتأكد من أنها تصل إلى 1 ، مما قد يؤدي إلى احتمالات شديدة حيث يتم اختيار خبير واحد بشكل حصري تقريبًا ، خاصةً إذا كانت أوزانه الأولية أفضل قليلاً. هذا يمكن أن يتسبب في عدم استخلاص الخبراء الآخرين والضعف ، مما يؤدي إلى انهيار التوجيه.

في المقابل ، يعين Sigmoid Gating كل خبير درجة بين 0 و 1 بشكل مستقل ، دون تطبيع عبر الخبراء. هذا يعني أن العديد من الخبراء يمكن أن يحصلوا على درجات عالية في وقت واحد ، مما يسمح بتوزيع أكثر توازناً للرموز عبر الخبراء. لا يفرض Sigmoid Gating منافسة صارمة بين الخبراء ، مما يقلل من احتمال انهيار التوجيه من خلال ضمان حصول كل خبير على فرصة عادلة للمساهمة [1] [4] [6].

تعديل التحيز الديناميكي

يعزز Deepseek-V3 بوابات السيني من خلال تقديم مصطلحات التحيز الديناميكية لكل خبير. يتم ضبط هذه التحيزات أثناء التدريب بناءً على تحميل كل خبير. إذا تم زيادة تحميل الخبير ، فقد انخفض تحيزه لثني مزيد من التوجيه إليه ، في حين أن الخبراء تحت الحمل قد زاد تحيزاتهم لجذب المزيد من الرموز. يساعد هذا التعديل الديناميكي في الحفاظ على حمولة متوازنة في جميع الخبراء ، مما يمنع أي خبير واحد من السيطرة على قرارات التوجيه وبالتالي منع انهيار التوجيه [2] [4] [6].

البوابات الهرمية

يستخدم Deepseek-V3 أيضًا بوابات هرمية ، والتي تطبق قيود التباين على مستويات متعددة. في البداية ، يتم إجراء مجموعة مختارة من الخبراء الخشنة ، تليها التصفية الدقيقة داخل مجموعات مختارة. يضمن هذا النهج الهرمي أن يتم تنشيط مجموعة متنوعة من الخبراء لكل رمز ، مما يقلل من خطر انهيار التوجيه عن طريق منع الإفراط في التخصص وتشجيع التعميم عبر مجالات مختلفة [1] [6].

التوجيه المحدودة العقدة

بالإضافة إلى ذلك ، يستخدم Deepseek-V3 التوجيه المحدودة العقدة ، والذي يقيد عدد العقد التي يمكن لكل رمز التواصل معها. تقلل هذه الاستراتيجية من النفقات العامة للاتصال عبر العقدة ، مما يضمن التدريب والاستدلال الفعال مع الحفاظ على استخدام الخبراء المتوازن [6].

باختصار ، يساعد البوابات السينية في Deepseek-V3 على منع انهيار التوجيه من خلال السماح لخبراء متعددين بتفعيله في وقت واحد دون فرض منافسة صارمة بينهم. يضمن تعديل التحيز الديناميكي والبوابات الهرمية أيضًا استخدام كل خبير بفعالية ، والحفاظ على حمولة متوازنة ومنع أي خبير من السيطرة على قرارات التوجيه.

الاستشهادات:
[1] https://www.linkedin.com/posts/sathiyakerthi_how-deepeek-v3-pick-perfect-experts-activity-7287631625310412800-ncyv
[2] https://martinfowler.com/articles/deepeek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-transformer
[4] https://machinelearningatscale.substack.com/p/deepeek-v3-model
[5] https://fireworks.ai/blog/deepeek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepeek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepeek-v3-matters-in-the-world-of-llms

كيف يساعد بوابات السيني في منع انهيار التوجيه في Deepseek-V3

Gating Softmax التقليدية مقابل البوابات السيغمود

تعديل التحيز الديناميكي

البوابات الهرمية

التوجيه المحدودة العقدة