تم تصميم GPT-4.5 للتعامل مع الإرشادات المتضاربة من خلال التسلسل الهرمي للتعليمات ، والتي تعطي الأولوية رسائل النظام عبر رسائل المستخدم للتخفيف من المخاطر مثل الحقن السريعة والهجمات الأخرى التي تتجاوز تعليمات السلامة [1]. ومع ذلك ، ما إذا كان GPT-4.5 يمكن أن يتكيف مع أنواع جديدة من التعليمات المتضاربة التي لم يتم تدريبها على سؤال معقد.
التدريب والتقييم
تم تدريب GPT-4.5 باستخدام تقنيات إشراف جديدة جنبًا إلى جنب مع الأساليب التقليدية مثل التثبيت الخاضع للإشراف (SFT) وتعلم التعزيز من التعليقات البشرية (RLHF) [1]. تهدف هذه الطرق إلى تحسين محاذاة النموذج مع نية المستخدم وقدرته على اتباع التعليمات بشكل أكثر دقة. تم تقييم النموذج في سيناريوهات مختلفة حيث تتعارض رسائل النظام والمستخدم ، مما يدل على تحسينات على النماذج السابقة مثل GPT-4O [1].
القدرة على التكيف مع التعليمات المتضاربة الجديدة
في حين أن GPT-4.5 يوضح أداء أفضل في التعامل مع الأنواع المعروفة من التعليمات المتضاربة ، فإن قدرتها على التكيف مع أنواع جديدة تمامًا من التعارضات تعتمد على عدة عوامل:
1. قدرات التعميم: يتضمن تدريب GPT-4.5 تحجيم التعلم غير الخاضع للإشراف ، مما يعزز قدرته على تعميم وفهم السياقات الأوسع [1]. هذا يمكن أن يساعد ذلك في التعرف على الأنماط في التعليمات المتضاربة الجديدة.
2. التسلسل الهرمي للتعليمات: تم تصميم التسلسل الهرمي لتعليم النموذج لتحديد أولويات رسائل النظام ، مما يساعد في الحفاظ على السلامة والالتزام بالقواعد المحددة مسبقًا. ومع ذلك ، إذا كانت الإرشادات المتضاربة الجديدة تقع خارج نطاق هذا التسلسل الهرمي ، فقد يكافح النموذج من أجل التكيف دون تدريب إضافي أو صقل.
3. الهندسة السريعة والسقالات: يمكن للمستخدمين استخدام تقنيات مطالبة متقدمة أو سقالات لتوجيه النموذج نحو فهم واتباع التعليمات الجديدة. يمكن أن يساعد هذا النهج في الحصول على سلوكيات تتجاوز ما تم تدريبه بشكل صريح لـ [1].
4. القيود وتقييمات السلامة: على الرغم من التحسينات ، لا يزال GPT-4.5 يواجه تحديات في التعامل مع سيناريوهات معقدة أو جديدة. أظهرت تقييمات السلامة أنه على الرغم من أن النموذج يعمل بشكل جيد في المهام المعروفة ، إلا أن هناك دائمًا خطر فشله في اتباع التعليمات في السياقات غير المتوقعة [1].
خاتمة
على الرغم من أن GPT-4.5 قادر أكثر من سابقاتها في التعامل مع التعليمات المتضاربة ، فإن قابليتها للتكيف مع أنواع التعارضات الجديدة محدودة تمامًا ببيانات التدريب والتصميم. قد يتطلب الأمر استراتيجيات إضافية للضغط أو الإبداع الإبداعي للتعامل مع سيناريوهات جديدة بفعالية. ستوفر البحث المستمر وتفاعلات المستخدم مع GPT-4.5 المزيد من الأفكار حول قدراتها وقيودها في هذا المجال.
الاستشهادات:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-in-large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-follow-simple-and-clear-instructions/768674
[7]
[8] https://www.reddit.com/r/openai/comments/18monbs