كيف يقارن أداء Deepseek على Humaneval بـ GPT-4

أداء Deepseek على معيار Humaneval يظهر ميزة ملحوظة على GPT-4. على وجه التحديد ، حقق Deepseek معدل تمرير 73.78 ٪ على Humaneval ، والذي يقيم قدرات الترميز ، في حين سجل GPT-4 حوالي 67 ٪ في تقييمات مماثلة [1] [2]. يشير هذا إلى أن Deepseek أكثر فاعلية في توليد وحل مشاكل الترميز مقارنة بـ GPT-4.

من حيث الكفاءة ، تستخدم Deepseek بنية خليط من الخبراء (MOE) التي تنشط 37 مليار فقط من إجمالي 671 مليار معلمة للمهام ، مما يتيح لها الحفاظ -4 للمعالجة الرمزية [1] [2]. تترجم هذه الكفاءة إلى إمكانيات توليد الكود وأكثر دقة وأكثر دقة ، مما يجعل Deepseek خيارًا مقنعًا للمطورين.

علاوة على ذلك ، فإن نافذة سياق Deepseek أكبر بكثير عند رموز 128 ألف ، مقارنةً بحد أقصى لـ GPT-4 من الرموز 8K ، مما يتيح لها التعامل مع مدخلات أكثر شمولاً أثناء المعالجة [1] [2]. يمكن أن تكون هذه الميزة مفيدة بشكل خاص لمهام الترميز المعقدة التي تتطلب سياقًا أكبر.

بشكل عام ، لا يتجاوز Deepseek GPT-4 فقط من حيث أداء الترميز على Humaneval ، بل يوفر أيضًا مزايا كبيرة في التكلفة والكفاءة ، مما يضع نفسه كبديل قوي في مشهد نماذج اللغة الكبيرة.

الاستشهادات:
[1] https://daily.dev/blog/deepseek- everything-you-need-thend-about-this-new-llm-in-one-place
[2] https://docsbot.ai/models/compare/gpt-4/deepseek-v3
[3] https://www.reddit.com/r/chatgptcoding/comments/1fdrhbx/new_deepseekv25_model_scores_89_on_humaneval/
[4] https://aclanthology.org/2024.findings-acl.471.pdf
[5] https://deepseekcoder.github.io
[6] https://news.ycombinator.com/item؟id=41999151
[7] https://www.deepeek.com
[8]
تش