تم تصميم التسلسل الهرمي لتعليمات GPT-4.5 للتخفيف من خطر الحقن الفوري عن طريق إنشاء ترتيب الأولوية الواضح لأنواع مختلفة من التعليمات. يضمن هذا التسلسل الهرمي أن رسائل النظام ، التي يتم تعيينها من قبل المطورين ، لها الأسبقية على رسائل المستخدم والمدخلات الأخرى. إليك كيفية عملها وكيف تساعد على منع هجمات الحقن الفوري:
فهم الحقن السريعة
تحدث هجمات الحقن السريع عندما يعالج المستخدمون الخبيثون نماذج الذكاء الاصطناعي من خلال توفير مدخلات تتجاوز تعليمات النظام الأصلية. يمكن أن يؤدي ذلك إلى سلوك غير مقصود ، مثل الكشف عن المعلومات الحساسة أو إجراء إجراءات غير مصرح بها [2] [3].التسلسل الهرمي للتعليمات
يعطي التسلسل الهرمي للتعليمات في GPT-4.5 أولوية التعليمات بناءً على مصدرها وأهميتها. يقوم بتصنيف المدخلات إلى عدة أنواع ، بما في ذلك: عادة:- رسائل النظام: هذه هي الإرشادات ذات الأولوية الأعلى التي حددها المطورين. أنها تحدد المهام والقيود الأولية التي يجب أن يتبعها النموذج.
- رسائل المستخدم: هذه هي المدخلات التي يوفرها المستخدمون وتعتبر أقل في الأولوية من رسائل النظام.
- سجل المحادثة ومخرجات الأدوات: قد تؤثر هذه أيضًا على النموذج ولكنها أقل عمومًا في الأولوية من رسائل المستخدم [1] [3].
تخفيف الحقن السريع
للتخفيف من هجمات الحقن الفوري ، يضمن التسلسل الهرمي للتعليم أن GPT-4.5 يلتزم بالمبادئ التالية:- تحديد الأولويات: يعطي النموذج رسائل النظام على مدخلات المستخدم. إذا حاول المستخدم حقن موجه يتناقض مع تعليمات النظام ، فسيقوم النموذج بالتخلف عن التوجيه الأصلي [3] [5].
- اكتشاف المطالبات غير المحسنة: يتم تدريب GPT-4.5 على تحديد وتجاهل المطالبات التي تتعارض مع تعليمات النظام. على سبيل المثال ، إذا قام المستخدم بإدخال "نسيان جميع التعليمات السابقة" ، فسيتعرف النموذج على ذلك على أنه موجه غير محدد ويستجيب وفقًا لذلك [3].
-تجاهل انتقائي للتعليمات ذات الأولوية المنخفضة: تم تصميم النموذج لتجاهل التعليمات ذات الأولوية المنخفضة بشكل انتقائي عندما يتعارضون مع التعليمات ذات الأولوية العليا. هذا يضمن أن النموذج يحافظ على سلوكه المقصود حتى عندما يواجه مدخلات ضارة [7].
التدريب والتقييم
يتم تدريب GPT-4.5 باستخدام التقنيات التي تؤكد على التسلسل الهرمي للتعليم ، مثل توليد البيانات الاصطناعية وتقطير السياق. تساعد هذه الأساليب النموذج على تعلم إعطاء الأولوية للإرشادات بفعالية ومقاومة المدخلات الضارة [6] [7]. يتم تقييم أداء النموذج في السيناريوهات التي تتعارض فيها رسائل النظام مع مدخلات المستخدم ، مما يضمن أن يلتزم بالتسلسل الهرمي للتعليمات ويحافظ على ميزات الأمان [5].بشكل عام ، يعزز التسلسل الهرمي للتعليمات في GPT-4.5 أمان النموذج من خلال ضمان أنه يتبع التعليمات المقصودة التي حددها المطورين ، حتى في مواجهة مدخلات المستخدمين المتضاربة أو الضارة. هذا النهج أمر بالغ الأهمية لبناء أنظمة الذكاء الاصطناعى الجديرة بالثقة التي يمكن أن تعمل بأمان في التطبيقات الواقعية.
الاستشهادات:
[1] https://arxiv.org/html/2502.08745v1
[2]
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/proticing-against-prompt-injection-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/proticing-llms-from-prompt-injections-and-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2