Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ما هو الدور الذي تلعبه MLA المكرر في إدارة نمو الذاكرة في Deepseek-V3


ما هو الدور الذي تلعبه MLA المكرر في إدارة نمو الذاكرة في Deepseek-V3


تلعب آلية الاهتمام الكامن متعدد الرأس المكرر (MLA) في DeepSeek-V3 دورًا مهمًا في إدارة نمو الذاكرة عن طريق تقليل متطلبات الذاكرة بشكل كبير أثناء عملية الاستدلال للنموذج. إليك كيف تساهم في كفاءة الذاكرة:

1. الإسقاط الديناميكي المنخفض الرتبة: يقوم MLA بضبط ضغط ناقلات المفتاح/القيمة بناءً على طول التسلسل. بالنسبة للتسلسلات الأقصر ، يتم تطبيق ضغط أقل للحفاظ على الإخلاص ، بينما بالنسبة للتسلسل الأطول (ما يصل إلى 128 كيلو رموز) ، يتم استخدام ضغط أعمق لإدارة نمو الذاكرة. يضمن هذا النهج التكيفي أن استخدام الذاكرة لا يزال قابلاً للإدارة حتى مع تسلسل إدخال طويل جدًا [2] [3].

2. ضغط الاستعلام التكيفي: على عكس Deepseek-V2 ، الذي استخدم بعدًا ثابتًا لضغط الاستعلام ، يستخدم Deepseek-V3 تحجيمًا تكيفيًا للاستعلامات في أعماق طبقة مختلفة. تستخدم الطبقات المبكرة استعلامات عالية الأبعاد لتحسين التعبير ، في حين أن الطبقات الأعمق أكثر ضغطًا على الضغط على ذاكرة التنشيط. تعمل هذه الاستراتيجية على تحسين استخدام الذاكرة من خلال موازنة التعبير مع الكفاءة [2] [3].

3. تحسين معالجة الحبل: Deepseek-V3 يمتد مفهوم مفاتيح الفصل ، والذي تم تنفيذه جزئيًا في V2. من خلال تتبع "مفتاح مشترك مفصل" ، يقلل النموذج من الانجراف العددي في الأجيال الطويلة ، مما يضمن أداء مستقر على تسلسلات ممتدة [2].

4. تخزين KV المفصل: على عكس V2 ، الذي تخزين المفاتيح والقيم المضغوطة بشكل منفصل ، دمجها V3 في تمثيل مضغوط مشترك. هذا يقلل من حركة الذاكرة أثناء الاستدلال متعدد العقدة ، مما يزيد من تعزيز كفاءة الذاكرة [2].

5. ذاكرة التخزين المؤقت التكيفية للطبقة: بدلاً من التخزين المؤقت لجميع الرموز السابقة لجميع الطبقات ، تقلبات V3 الأقدم KV في طبقات أعمق. يساعد هذا في الحفاظ على استخدام الذاكرة ضمن حدود يمكن التحكم فيها عند التعامل مع نوافذ السياق الكبيرة [2].

من خلال تنفيذ هذه التحسينات ، يقلل MLA بشكل كبير من بصمة الذاكرة لـ Deepseek-V3 ، مما يجعلها قادرة على التعامل مع التسلسلات الطويلة بكفاءة دون المساس بالأداء. يتم تحقيق ذلك من خلال ضغط أزواج القيمة الرئيسية في ناقلات كامنة ، مما يقلل من كمية البيانات التي تحتاج إلى تخزين ومعالجة ، وبالتالي تسريع الاستدلال وتعزيز قدرات التطبيق في الوقت الفعلي [3] [5] [8].

الاستشهادات:
[1] https://www.reddit.com/r/localllama/comments/1htwh4l/deepseekv3_is_insanely_popular_a_671b_models/
[2] https://martinfowler.com/articles/deepeek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-ting-crazy-how-deepseek
[4] https://machinelearningatscale.substack.com/p/deepeek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-hey-achieved-big-results-small-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
[7]
[8]