GPT-4.5 تعليمات التسلسل الهرمي: تحديد أولويات رسائل النظام للسلامة والأمن

كيف يحدد GPT-4.5 رسائل النظام على رسائل المستخدم

يعطي GPT-4.5 رسائل النظام عبر رسائل المستخدم من خلال التسلسل الهرمي للتعليمات ، والذي تم تصميمه للتخفيف من خطر الحقن السريع والهجمات الأخرى التي قد تتجاوز تعليمات السلامة في النموذج. يصنف هذا التسلسل الهرمي الرسائل إلى نوعين رئيسيين: رسائل النظام ورسائل المستخدم. رسائل النظام عبارة عن إرشادات مخفية بشكل أساسي توجه سلوك الذكاء الاصطناعي ، في حين أن رسائل المستخدم هي المدخلات التي يوفرها المستخدمون.

في GPT-4.5 ، عندما يتعارض رسائل النظام والمستخدم ، يتم تدريب النموذج على اتباع الإرشادات الواردة في رسالة النظام على تلك الموجودة في رسالة المستخدم. يتم تحقيق ذلك من خلال الإشراف على النموذج على الأمثلة التي تتعارض فيها هذه الأنواع من الرسائل. يتعلم النموذج تحديد أولويات رسائل النظام لضمان الالتزام بإرشادات السلامة ومنع المخرجات غير المرغوب فيها.

على سبيل المثال ، إذا حاول المستخدم خداع النموذج لتوفير معلومات ضارة ، يمكن لرسالة النظام توجيه النموذج لرفض هذه الطلبات. تساعد قدرة GPT-4.5 على الالتزام بهذا التسلسل الهرمي في الحفاظ على معايير السلامة ومنع المعالجة من النموذج إلى توليد محتوى غير مسموح به.

هذا النهج أمر بالغ الأهمية لضمان أن GPT-4.5 يتصرف بشكل متسق مع إرشادات السلامة والمبادئ التوجيهية الأخلاقية المقصودة ، حتى عند مواجهة محاولات لتجاوز هذه القواعد من خلال مدخلات المستخدم المصممة بذكاء. من خلال تحديد أولويات رسائل النظام ، يهدف Openai إلى تعزيز موثوقية النموذج والأمان في مختلف التطبيقات [1] [2].

الاستشهادات:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-messages-to-to-use-them-real-world-experiments-prompt-injection-protectors
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited-to-free-preed--edven-plus-it-it-literally-larely-gives-you-5-messages-in-5-6-hours-to-free-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-to-plus-plus-team-team-next-wee-then-to-enterprise-and-edu- users-tollowing-week
[6] https://arxiv.org/html/2408.10943v1
[7]
[8]