Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ما هي المعايير المحددة التي تم اختبار Deepseek و Copilot ضد


ما هي المعايير المحددة التي تم اختبار Deepseek و Copilot ضد


تم اختبار Deepseek و CoPilot مقابل معايير مختلفة ، حيث عرضت قدراتها في مناطق مختلفة.

معايير ديبسيك

تم تقييم Deepseek ، وخاصة نموذج R1 ، عبر عدة معايير:

- معايير الرياضيات: أداء Deepseek R1 بقوة في الرياضيات ، حيث سجل 79.8 ٪ في المعيار AIME 2024 ، قبل Openai's O1-1217 بنسبة 79.2 ٪. على معيار MATH-500 ، حقق Deepseek R1 97.3 ٪ مثير للإعجاب ، متجاوزًا Openai's O1-1217 عند 96.4 ٪ [3] [5].

- معايير الترميز: في مهام الترميز ، حقق Deepseek R1 96.3 ٪ منافسة على معيار الكود ، بعد أن أو Openai's O1-1217 بنسبة 96.6 ٪. على المعيار الذي تم التحقق منه SWE ، سجل Deepseek R1 49.2 ٪ ، قبل بقليل من Openai's O1-1217 بنسبة 48.9 ٪ [3] [5].

- معايير المعرفة العامة: سجل Deepseek R1 71.5 ٪ على معيار GPQA Diamond ، مما يتخلى عن Openai's O1-1217 بنسبة 75.7 ٪. على معيار MMLU ، حقق Deepseek R1 90.8 ٪ ، خلف Openai's O1-1217 بقليل في 91.8 ٪ [3] [5].

- الأمن والسلامة: تم اختبار Deepseek R1 من أجل نقاط الضعف الأمنية باستخدام معايير هارمبني ، والتي تشمل فئات مثل الجرائم الإلكترونية والمعلومات الخاطئة. أظهر النموذج معدل نجاح الهجوم بنسبة 100 ٪ ، مما يشير إلى مخاوف أمنية كبيرة مقارنة بالنماذج الأخرى مثل Openai's O1 [1].

معايير Copilot

تم اختبار CoPilot ، وتحديدا في سياق Excel ، مقابل البحث العميق في مقارنة وجها لوجه:

- إنشاء صيغة Excel: كافح Copilot مع إنشاء الصيغة بسبب متطلباتها لإنقاذ السيارات ، في حين أن Seek Deep قدم حلولًا أكثر مرونة ، وحل المشكلات في محاولات أقل [2].

-Excel Formula Explanation: عرضت Copilot تفسيرات تستند إلى بناء الجملة ، في حين توفر Deep Seek أعاصراً أكثر وضوحًا وعملية من الصيغ المعقدة ، مما يجعلها أكثر سهولة في الاستخدام [2].

على الرغم من أن CoPilot لم يتم توسيع نطاقه على نطاق واسع بالطريقة نفسها التي يتمتع بها Deepseek عبر مختلف مهام التفكير والترميز ، إلا أنها معترف بها لقدراتها في مساعدة الترميز ، وخاصة في بيئات Microsoft [4].

الاستشهادات:
[1] https://blogs.cisco.com/security/evaluating-security-reks-in-deepseek-and-phrontier-reasoning-models
[2] https://www.mrexcel.com/board/threads/excel-copilot-vesus-deep-ekek-to-head-episode-2671.126955/
[3] https://www.datacamp.com/blog/deepeek-r1
[4] https://dev.to/hanzla-baig/the-ulatimate-showdown-chatgpt-vs-deepseek-vs-gemini-vs-copilot-vs-qwen-vs-mistral-33kd
[5] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-t-ranks-against-openais-o1
[6]
[7] https://theconversation.com/putting-deepseek-the-test-how-performance-compares-against-eolh-ai-tools-248368
[8]