تقييم أداء GPT-4.5 ضد المطالبات العدائية وآليات السلامة

أداء GPT-4.5 في السيناريوهات حيث تحاول رسائل المستخدم خداع النموذج من خلال العديد من التقييمات ، مع التركيز على قدرته على مقاومة المطالبات العدائية والحفاظ على معايير السلامة.

تقييمات السلامة والكسبون

1. تقييمات السجن: تقيس هذه الاختبارات مدى جودة GPT-4.5 محاولات للتحايل على آليات السلامة الخاصة بها. يتم تقييم هذا النموذج ضد قصاصات السجن المصدر البشرية ومعيار المستعار القوي ، الذي يقيم مقاومة الهجمات العدائية الشائعة. يعمل GPT-4.5 بشكل جيد في كسرات السجن البشرية من المصادر ، مما يحقق دقة عالية قدرها 0.99. ومع ذلك ، في المعيار القوي ، فإنه يسجل 0.34 ، وهو أقل بقليل من درجة GPT-4O1 البالغة 0.87 [1].

2. تقييمات التسلسل الهرمي للتعليمات: للتخفيف من هجمات الحقن السريع ، يتم تدريب GPT-4.5 على اتباع تسلسل هرمي للتعليمات ، وتحديد أولويات رسائل النظام عبر رسائل المستخدم. في التقييمات التي يتعارض فيها رسائل النظام والمستخدم ، يعمل GPT-4.5 بشكل عام بشكل جيد ، بدقة 0.76. هذا تحسن على GPT-4O ولكن أقل بقليل من أداء GPT-4O1 [1].

3. Tusor Jailbreaks: في السيناريوهات التي يتم فيها توجيه النموذج بعدم الكشف عن إجابات لأسئلة الرياضيات ، يُظهر GPT-4.5 نجاحًا معتدلًا ، بدقة 0.77. هذا تحسن كبير على GPT-4O ولكن ليس أعلى من أداء GPT-4O1 [1].

4. حماية العبارة وكلمة المرور: يتم تقييم GPT-4.5 أيضًا على قدرتها على حماية عبارات أو كلمات مرور محددة من الكشف عن رسائل المستخدم. يعمل بشكل جيد في هذه الاختبارات ، مع دقة 0.86 لحماية العبارات و 0.92 لحماية كلمة المرور [1].

تقييم الجمهور الأحمر

يخضع GPT-4.5 لتقييمات جماعية حمراء مصممة لاختبار متمتة ضد المطالبات العدائية. تغطي هذه التقييمات سيناريوهات مثل المشورة غير المشروعة والتطرف وجرائم الكراهية والإقناع السياسي وإيذاء الذات. ينتج GPT-4.5 مخرجات آمنة في حوالي 51 ٪ من أول مجموعة تقييم للفريق الأحمر ، أعلى قليلاً من GPT-4O ولكن أقل من GPT-4O1. في التقييم الثاني الذي يركز على المشورة المحفوفة بالمخاطر ، يعمل GPT-4.5 أفضل من GPT-4O ولكن ليس وكذلك نماذج GPT-4O1 أو الأبحاث العميقة [1].

الأداء العام

في حين أن GPT-4.5 يوضح تحسينات في التعامل مع المطالبات الحساسة والعدوانية مقارنة بالنماذج السابقة ، فإنها لا تزال تواجه تحديات في سيناريوهات العدوانية للغاية. أدائها قوي للمهام للأغراض العامة ولكنه قد لا يكون مثاليًا لمهام حل المشكلات المتقدمة أو الترميز العميق مقارنة بالنماذج المتخصصة مثل O3-MINI [3] [5].

باختصار ، يوضح GPT-4.5 المرونة ضد محاولات خداعها ، خاصة في السيناريوهات التي يجب أن تعطي الأولوية لتعليمات النظام على مدخلات المستخدم. ومع ذلك ، فإنه لا يزال لديه قيود في سياقات الخصومة للغاية ، مما يعكس التحديات المستمرة في موازنة السلامة والوظائف في نماذج الذكاء الاصطناعى.

الاستشهادات:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-mood-tis-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch؟v=0kbas3s5ryw

كيف أداء GPT-4.5 في السيناريوهات حيث تحاول رسائل المستخدم خداع النموذج

تقييمات السلامة والكسبون

تقييم الجمهور الأحمر

الأداء العام