GPT-4.5在用户消息试图通过多次评估中评估模型的方案中的性能,重点是抵抗对抗性提示并保持安全标准的能力。
###安全评估和越狱
1。越狱评估:这些测试衡量GPT-4.5的抵抗力如何试图规避其安全机制。该模型针对人为越狱和强烈的基准进行了评估,该基准评估了对常见对抗攻击的抵抗。 GPT-4.5在人为越狱的表现良好,高精度为0.99。但是,在强练习基准中,它得分为0.34,略低于GPT-4O1的得分0.87 [1]。
2。指令层次结构评估:为了减轻提示注射攻击,GPT-4.5经过培训以遵循说明的层次结构,将系统消息优先于用户消息。在系统和用户消息冲突的评估中,GPT-4.5通常表现良好,精度为0.76。这是对GPT-4O的改进,但略低于GPT-4O1的性能[1]。
3。导师越狱:在指示模型不透露数学问题的情况下,GPT-4.5显示出适度的成功,准确性为0.77。这是对GPT-4O的显着改善,但不如GPT-4O1的性能[1]那么高。
4.短语和密码保护:GPT-4.5还评估了其保护特定短语或密码免于通过用户消息揭示的能力。它在这些测试中表现良好,对短语保护的精度为0.86,密码保护的0.92 [1]。
###红色团队评估
GPT-4.5进行红色团队评估,旨在测试其针对对抗性提示的鲁棒性。这些评估涵盖了诸如非法建议,极端主义,仇恨犯罪,政治说服力和自我伤害之类的情况。 GPT-4.5在第一个红色团队评估集的约51%的情况下产生安全的产量,略高于GPT-4O,但低于GPT-4O1。在第二次评估中,GPT-4.5的性能优于GPT-4O,但不如GPT-4O1或深入研究模型[1]。
###整体表现
与早期模型相比,GPT-4.5在处理敏感和对抗性提示方面表现出改进,但在高度对抗性的情况下,它仍然面临着挑战。与O3-Mini [3] [5]相比,它的通用任务对于通用任务而言是可靠的,但对于高级解决问题或深层编码任务而言可能不是最佳的。
总而言之,GPT-4.5表明了反对欺骗它的弹性,尤其是在必须优先考虑系统指令而不是用户输入的情况下。但是,它在高度对抗性的环境中仍然存在局限性,反映了在AI模型中平衡安全性和功能的持续挑战。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-hores-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_has_been_toned_down_down_down_significatifaly_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-rease-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW