تم تصميم GPT-4.5 للتعامل مع الإرشادات المتضاربة بين رسائل النظام ورسائل المستخدم من خلال التسلسل الهرمي للتعليمات. يساعد هذا التسلسل الهرمي على تحديد أولويات رسائل النظام عبر رسائل المستخدم للتخفيف من المخاطر المرتبطة بمطالبات متضاربة ، مثل الحقن السريعة أو الهجمات الأخرى التي قد تتجاوز تعليمات السلامة في النموذج.
الميزات الرئيسية للتسلسل الهرمي للتعليمات
1. تصنيف الرسائل: يميز GPT-4.5 بين نوعين من الرسائل: رسائل النظام ورسائل المستخدم. تعتبر رسائل النظام سلطة أعلى وتستخدم لتحديد إرشادات السلامة أو تعليمات محددة للنموذج.
2. دقة الصراع: عندما يتعارض رسائل النظام والمستخدم ، يتم تدريب GPT-4.5 على اتباع الإرشادات الواردة في رسالة النظام. هذا يضمن أن النموذج يلتزم بإرشادات السلامة ولا يشارك في أنشطة ضارة أو غير مسموح بها.
3. التقييم والتدريب: يتم تقييم النموذج على قدرته على التعامل مع النزاعات من خلال سيناريوهات مختلفة. على سبيل المثال ، في السيناريو الذي يتم فيه توجيه النموذج بعدم التخلي عن الإجابة لمشكلة الرياضيات (رسالة النظام) ، ويحاول المستخدم خداعها (رسالة المستخدم) ، ويجب على GPT-4.5 مقاومة محاولة المستخدم ومتابعة تعليمات النظام.
4. الأداء: يعمل GPT-4.5 بشكل عام بشكل جيد في هذه التقييمات ، مما يدل على تحسن على النماذج السابقة مثل GPT-4O في تعارض رسائل مستخدمي النظام. ومع ذلك ، هناك سيناريوهات محددة حيث قد لا تؤدي بالإضافة إلى GPT-4O أو GPT-4O1 ، كما هو الحال في اختبارات بعض الاختبارات حيث يتم خداعها في الكشف عن المعلومات التي لا ينبغي لها [1] [7].
تقييم السلامة
يخضع GPT-4.5 لتقييمات صارمة للسلامة لضمان عدم توليد محتوى غير مسموع ، مثل نصيحة بغيضة أو غير مشروعة. وتقييم هذه التقييمات أيضًا ميل النموذج إلى المبالغة الحميدة في التغلب على المطالبات الحميدة المتعلقة بموضوعات السلامة. يعد أداء النموذج في هذه المجالات أمرًا ضروريًا للحفاظ على سلامته وموثوقيته عند التعامل مع التعليمات المتضاربة [1].
مواصفات المواصفات ومستويات السلطة
تحدد المواصفات النموذجية مستويات السلطة لأنواع مختلفة من التعليمات ، مع تعليمات على مستوى النظام الأساسي لها أعلى سلطة ، تليها تعليمات المطور والمستخدم. يضمن هذا التسلسل الهرمي أن GPT-4.5 يعطي الأولوية للسلامة والالتزام بالإرشادات مع الاستمرار في السماح بالتخصيص من قبل المستخدمين والمطورين ضمن حدود تعيين [2] [5].
بشكل عام ، تعد قدرة GPT-4.5 على التعامل مع الإرشادات المتضاربة جانبًا رئيسيًا في تصميمها ، مما يضمن أنها تحافظ على السلامة والنزاهة أثناء التفاعل مع المستخدمين.
الاستشهادات:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5]
[6]
[7]
[8]