Deepseek-R1 vs Openai O1-1217: مقارنة الأداء القياسي

كيف يقارن أداء DeepSeek-R1 على المعيار الذي تم التحقق منه SWE مع أدائه على معيار الكود

يوضح Deepseek-R1 أداءً قوياً عبر مختلف المعايير ، بما في ذلك كل من المعايير التي تم التحقق منها SWE و Codeforces. فيما يلي مقارنة مفصلة لأدائها على هذين المعايير:

المعيار الذي تم التحقق منه SWE

على المعيار الذي تم التحقق منه SWE ، يحقق Deepseek-R1 درجة 49.2 ٪ ، وهو ما يتقدم قليلاً عن Openai's O1-1217 عند 48.9 ٪ [2] [3]. يقيم هذا المعيار تفكير النموذج في مهام هندسة البرمجيات ، مع التركيز على مهام مثل التحقق من التعليمات البرمجية وتصحيح الأخطاء. في حين أن Deepseek-R1 يعمل بشكل جيد ، فإن Claude-3.5-Sonnet-1022 يدور قليلاً مع درجة 50.8 ٪ [3].

المعيار Codeforces

في المقابل ، يتفوق Deepseek-R1 على معيار Codeforces ، حيث حقق مئوية مئوية من 96.3 وتصنيف ELO من 2029 [3] [4]. هذا يضعه من بين أفضل فناني الأداء في الترميز التنافسي ، ويتابع عن كثب Openai O1-1217 ، والذي يؤدي بنسبة مئوية من 96.6 وتصنيف 2061 [3]. يقوم معيار Codeforces بتقييم قدرات ترميز النموذج والتفكير الخوارزمي من خلال مقارنة أدائها مع المشاركين البشريين.

مقارنة

في حين أن Deepseek-R1 يؤدي بشكل تنافسي على كلا المعايير ، إلا أن أدائها أكثر وضوحًا في معيار Codeforces. هذا يشير إلى أن DeepSeek-R1 بارع بشكل خاص في حل تحديات الخوارزمية والترميز ، والتي تكون أكثر تنظيماً وتتطلب التفكير المنطقي الدقيق. على المعيار الذي تم التحقق منه SWE ، في حين أنه يعمل بشكل جيد ، إلا أنه أقل مهيمنة قليلاً مقارنة بأدائه على كود فورسيز. يشير هذا إلى أن DeepSeek-R1 قد يكون أكثر ملاءمة للمهام التي تتطلب التفكير في الخوارزمية بدلاً من تلك التي تركز على التحقق من البرامج وتصحيح الأخطاء.

بشكل عام ، يوضح Deepseek-R1 التنوع عبر أنواع مختلفة من مهام الترميز والتفكير ، ولكن نقاط قوته أكثر وضوحًا في حل المشكلات الخوارزمية.

الاستشهادات:
[1] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-t-ranks-against-openais-o1
[2] https://www.datacamp.com/blog/deepeek-r1
[3] https://blog.getbind.co/2025/01/23/deepeek-vs-vs-gpt-o1-vs-claude-3-5-sonnet-hich-is-best-for-coding/
[4] https://techcrunch.com/2025/01/27/deepeek-claims-its-reasoning-model-beats-openais-o1-on-curner-benchmarks/
[5] https://forum.effectivealtruism.org/posts/d3ifbmyu5gte8xriz/is-deepseek-r1-already-better-than-o3-when-costs
[6]
[7] https://huggingface.co/Deepseek-ai/deepseek-r1
[8] https://arxiv.org/html/2501.12948v1