مقارنة الأداء القياسي Deepseek-R1: تم التحقق من SWE مقابل Codeforces

كيف يقارن أداء Deepseek-R1 على المعيار الذي تم التحقق منه SWE بأدائه على معيار Codeforces

يوضح Deepseek-R1 أداءً قويًا عبر مختلف المعايير ، بما في ذلك معايير SWE و Codeforces. فيما يلي مقارنة مفصلة لأدائها على هذين المعايير:

المعيار الذي تم التحقق منه SWE

- الأداء: حقق Deepseek-R1 درجة 49.2 ٪ على المعيار الذي تم التحقق منه SWE ، والذي يقيم التفكير في مهام هندسة البرمجيات. هذه النتيجة تتقدم قليلاً عن Openai O1-1217 من 48.9 ٪ ولكن قليلاً خلف Claude-3.5-Sonnet-1022's 50.8 ٪ [2] [3].
- التركيز على المهمة: يركز المعيار الذي تم التحقق منه SWE على المهام المتعلقة بالتحقق من البرامج ، مما يتطلب النموذج لإظهار قدرته على التفكير في مفاهيم هندسة البرمجيات.

المعيار Codeforces

-الأداء: على معيار Codeforces ، حقق Deepseek-R1 تصنيفًا مئويًا قدره 96.3 وتصنيف ELO لعام 2029. وهذا يضعه في المئوية الأولى من المشاركين ، على الرغم من أنه خلف Openai O1-1217 قليلاً ، والذي سجل مئوية 96.6 وتصنيف ELO 2061 [2] [3].
- تركيز المهمة: يقوم معيار Codeforces بتقييم قدرات ترميز النموذج والتفكير الخوارزمي من خلال مقارنة أدائها مع المشاركين البشريين في تحديات الترميز التنافسية.

باختصار ، في حين أن Deepseek-R1 يؤدي بشكل تنافسي على كلا المعايير ، فإنه يظهر أداءً نسبيًا أقوى على معيار Codeforces ، حيث يحتل المرتبة العالية للغاية بين المشاركين. ومع ذلك ، على معيار SWE الذي تم التحقق منه ، يعد أدائها قويًا ولكنه أقل قدرة على المنافسة مقارنة ببعض النماذج الأخرى مثل Claude-3.5-Sonnet-1022. بشكل عام ، يوضح Deepseek-R1 قدرات قوية في كل من مهام الترميز والتحقق من البرامج.

الاستشهادات:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-t-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepeek-r1
[3] https://blog.getbind.co/2025/01/23/deepeek-vs-vs-gpt-o1-vs-claude-3-5-sonnet-hich-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepeek-claims-its-reasoning-model-beats-openais-o1-on-curner-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-costs
[6]
[7] https://huggingface.co/Deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1