Deepseek R1 Model Performance تقييم: عيوب الأمن والضعف مقارنة بالمنافسين

كيف يقارن أداء Deepseek على Harmbench بنماذج الحدود الأخرى

تم تقييم نموذج Deepseek R1 مقابل نماذج AI الحدودية الأخرى باستخدام معايير Harmbench ، التي تقوم بتقييم ضعف النموذج للمطالبات الضارة عبر فئات مختلفة مثل الجرائم الإلكترونية ، والمعلومات الخاطئة ، والأنشطة غير القانونية. فيما يلي مقارنة مفصلة لأداء Deepseek مع النماذج الأخرى:

أداء Deepseek R1

- الضعف: عرض Deepseek R1 معدل نجاح الهجوم بنسبة 100 ٪ عند اختباره مقابل 50 مطالبات عشوائية من مجموعة بيانات Harmbench. هذا يعني أنه فشل في منع أي مطالبات ضارة ، وتوفير استجابات إيجابية في كل مرة [1] [2] [3].
- العيوب الأمنية: إن الافتقار إلى النموذج في آليات السلامة القوية يجعلها عرضة للغاية لكسر الحماية الخوارزمية ، وهي تقنية تستخدم لتجاوز قيود سلامة الذكاء الاصطناعي [1] [4].
- مقارنة مع المنافسين: أداء Deepseek من حيث إمكانيات التفكير المنافسين مثل Openai's O1 ، ولكن سلامتها وأمنها تتعرض للخطر بشكل كبير مقارنة بهذه النماذج [1] [2].

مقارنة مع نماذج الحدود الأخرى

-Openai O1-Preview: أظهر هذا النموذج معدل نجاح هجوم أقل بكثير بنسبة 26 ٪ ، مما يشير إلى أنه حظر بنجاح أكثر المطالبات الضارة باستخدام الدرابزين المدمج [3] [5].
- Meta's Llama 3.1: حقق هذا النموذج معدل نجاح للهجوم بنسبة 96 ٪ ، مما يدل على أنه كان أيضًا ضعيفًا للغاية ولكنه أقل قليلاً من Deepseek [3] [5].
- Google Gemini 1.5 Pro: مع معدل نجاح الهجوم البالغ 64 ٪ ، سقط Gemini في مكان ما في الوسط ، مما يوفر مقاومة أكثر من Deepseek ولكن أقل من Openai's O1-Preview [5].
- كلود 3.5 Sonnet من الأنثروبور: حقق هذا النموذج أيضًا معدل نجاح للهجوم بنسبة 26 ٪ ، على غرار Openai's O1-Preview ، مما يشير إلى ميزات أمان قوية [5].

بشكل عام ، في حين أن Deepseek R1 يظهر أداءً مثيرًا للإعجاب في مهام معينة ، فإن افتقارها إلى ميزات الأمان والسلامة يجعلها أكثر عرضة للإساءة إلى نماذج الحدود الأخرى.

الاستشهادات:
[1] https://blogs.cisco.com/security/evaluating-security-reks-in-deepseek-and-phrontier-reasoning-models
[2]
[3] https://futurism.com/deepeek-failed-every-security-test
[4] https://www.aisharenet.com/en/sikedui-deepeek-a/
[5] https://www.itpro.com/technology/artificial-intelligence/deepeek-r1-model-jailbreak-security-flaws
[6] https://www.haizelabs.com/technology/endless-jailbreaks-with-bijection-learning-a-powerful-scale-agnostic-attack-hethod
[7] https://www.telecomreviewasia.com/news/featured-articles/4835-deepseek-r1-shakes-up-the-ai-industry
[8]
[9]
[10] https://www.datacamp.com/blog/deepeek-r1