Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon كيف يقارن أداء Deepseek على المعايير مثل Humaneval و GSM8K مع النماذج الأخرى


كيف يقارن أداء Deepseek على المعايير مثل Humaneval و GSM8K مع النماذج الأخرى


أداء Deepseek على المعايير مثل Humaneval و GSM8K يعرض ميزة تنافسية داخل مشهد نماذج اللغة الكبيرة (LLMS).

مقاييس الأداء

** Humaneval: Deepseek يسجل 73.78 ٪ على معيار Humaneval ، والذي يقيم قدرة الترميز من خلال مهام البرمجة المختلفة. يتم وضع هذه النتيجة بشكل إيجابي ضد النماذج الرائدة الأخرى ، بما في ذلك عروض Openai ، على الرغم من أن المقارنات المحددة لنماذج مثل GPT-4 أو Llama 3 لم تكن مفصلة في المصادر المتاحة.

** GSM8K: في مهام حل المشكلات ، يحقق Deepseek 84.1 ٪ مثيرة للإعجاب على معيار GSM8K. تعكس هذه النتيجة قدرتها على التعامل مع التفكير الرياضي وسيناريوهات حل المشكلات المعقدة بشكل فعال.

الكفاءة واستخدام الموارد

تستخدم بنية Deepseek نظامًا لخليط الخبراء (MOE) ، مما ينشط جزءًا صغيرًا فقط من إجمالي المعلمات (671 مليار) خلال المهام حوالي 37 مليار. هذا التنشيط الانتقائي لا يعزز الأداء فحسب ، بل يقلل أيضًا بشكل كبير من التكاليف الحسابية ، مما يسمح لـ DeepSeek بتحقيق هذه الدرجات القياسية مع 2.8 مليون ساعة فقط ، وهو أقل بكثير من النماذج الأخرى التي تتطلب موارد أكثر شمولاً لمستويات أداء مماثلة [2] [2] 3].

مقارنة مع النماذج الأخرى

في حين لم يتم توفير مقارنات مباشرة محددة لنماذج مثل GPT-4 في نتائج البحث ، تجدر الإشارة إلى أن كفاءة Deepseek وطبيعة المصدر المفتوح تجعلها بديلاً جذابًا للمطورين الذين قد يجدون حلولًا خاصة بالتكاليف. تميز قدرة النموذج على التعامل مع نوافذ السياق الطويلة التي تصل إلى 128 كيلو كيلو مميزًا عن العديد من المنافسين ، والتي عادة ما تدعم عدد أقل من الرموز الرموز (عادة ما بين 32 كيلو و 64 كيلو) [2] [3].

باختصار ، يوضح Deepseek أداءً قويًا على المعايير الرئيسية مع الحفاظ على كفاءة التكلفة والفعالية التشغيلية ، مما يجعلها منافسة جديرة بالملاحظة بين LLMs المعاصرة.

الاستشهادات:
[1] https://artificialanalysis.ai/models/deepseek-v3
[2] https://daily.dev/blog/deepseek- everything-you-need-thend-about-this-new-llm-in-one-place
[3] https://artificialanalysis.ai/providers/deepseek
[4] https://en.wikipedia.org/wiki/Deepeek
[5] https://www.datacamp.com/blog/deepeek-r1
[6] https://arxiv.org/html/2406.11931v1
[7] https://www.youtube.com/watch؟v=BOSVI3HYHGI
[8] https://arxiv.org/html/2412.19437v1