Deepseek: إحداث ثورة في كفاءة الذكاء الاصطناعي مع بنية Mo

كيف تقارن Deepseek بالنماذج الأخرى من حيث استخدام الموارد الحسابية

Deepseek ، نموذج لغة كبير جديد (LLM) ، يعرض مزايا كبيرة في استخدام الموارد الحسابية مقارنةً بنماذج أخرى مثل GPT-4 و Claude Sonnet 3.5.

تنشيط المعلمة الفعال

توظف Deepseek بنية مزيج من الخبرة (MOE) ، مما يعني أنه من بين إجمالي 671 مليار معلمة ، يتم تنشيط 37 مليار فقط لأي مهمة معينة. يتيح هذا التنشيط الانتقائي Deepseek الحفاظ على الأداء العالي مع تقليل التكاليف الحسابية بشكل كبير. بالمقارنة ، غالبًا ما تستخدم النماذج التقليدية جميع معلماتها لكل مهمة ، مما يؤدي إلى ارتفاع استهلاك الموارد [1] [2].

كفاءة التدريب

يتطلب تدريب Deepseek-V3 حوالي 2.788 مليون ساعة من GPU باستخدام رقائق NVIDIA H800 ، وترجم إلى حوالي 5.576 مليون دولار في التكاليف. هذا منخفض بشكل ملحوظ مقارنة بالنماذج الرائدة الأخرى ، والتي يمكن أن تتحمل تكلفات أعلى بعشر مرات لمهام التدريب المماثلة [3] [7]. تنبع الكفاءة من الخوارزميات المحسنة وتصميم الأجهزة المشتركة التي تقلل من النفقات العامة أثناء التدريب ، مما يجعلها خيارًا فعالًا من حيث التكلفة للمطورين [4].

مقاييس الأداء

على الرغم من استخدام الموارد الفعالة ، يؤدي Deepseek بشكل مثير للإعجاب على المعايير المختلفة. على سبيل المثال ، سجل 73.78 ٪ على Humaneval لمهام الترميز و 84.1 ٪ على GSM8K لحل المشكلات ، يتفوق على العديد من المنافسين مع استهلاك موارد أقل [1] [4]. يتم تحقيق هذا الأداء بأقل من 6 ٪ من معاييره نشطة في أي وقت ، مما يعرض قدرته على تقديم مخرجات عالية الجودة دون متطلبات حسابية واسعة النموذجية من LLMs الأخرى.

معالجة السياق

يتفوق Deepseek أيضًا في التعامل مع نوافذ السياق الطويلة ، ودعم ما يصل إلى 128 كيلو رموز ، وهو أكثر بكثير من العديد من النماذج الأخرى التي تتعامل عادة مع ما بين 32 كيلو إلى 64 كيلو. تعزز هذه القدرة فائدتها في المهام المعقدة مثل توليد الكود وتحليل البيانات [1].

خاتمة

باختصار ، يتيح استخدام Deepseek المبتكر لهندسة Moe تنشيط جزء صغير فقط من معلماته خلال المهام ، مما يؤدي إلى وفورات كبيرة في الموارد والتكاليف الحسابية. تضع عملية التدريب الفعالة ومقاييس الأداء القوية أنها منافسة هائلة في مشهد نماذج اللغة الكبيرة ، وخاصة للتطبيقات التي تتطلب كل من الكفاءة والأداء العالي.
الاستشهادات:
[1] https://daily.dev/blog/deepseek- everything-you-need-thend-about-this-new-llm-in-one-place
[2] https://blog.spheron.network/why-deepseek-v3-is-llm-everyones-talking-about
[3] https://stratechery.com/2025/deepeek-faq/
[4] https://arxiv.org/html/2412.19437v1
[5] https://seo.ai/blog/deepseek-ai-statistics-and-facts
[6] https://www.linkedin.com/pulse/comparing-deepseek-r1-openai-o1-hich-ai-model-comes-to-pablo-8wtxf
[7 "
[8]