评估GPT-4.5针对对抗性提示和安全机制的性能

GPT-4.5在用户消息试图欺骗模型的情况下如何执行

GPT-4.5在用户消息试图通过多次评估中评估模型的方案中的性能，重点是抵抗对抗性提示并保持安全标准的能力。

###安全评估和越狱

1。越狱评估：这些测试衡量GPT-4.5的抵抗力如何试图规避其安全机制。该模型针对人为越狱和强烈的基准进行了评估，该基准评估了对常见对抗攻击的抵抗。 GPT-4.5在人为越狱的表现良好，高精度为0.99。但是，在强练习基准中，它得分为0.34，略低于GPT-4O1的得分0.87 [1]。

2。指令层次结构评估：为了减轻提示注射攻击，GPT-4.5经过培训以遵循说明的层次结构，将系统消息优先于用户消息。在系统和用户消息冲突的评估中，GPT-4.5通常表现良好，精度为0.76。这是对GPT-4O的改进，但略低于GPT-4O1的性能[1]。

3。导师越狱：在指示模型不透露数学问题的情况下，GPT-4.5显示出适度的成功，准确性为0.77。这是对GPT-4O的显着改善，但不如GPT-4O1的性能[1]那么高。

4.短语和密码保护：GPT-4.5还评估了其保护特定短语或密码免于通过用户消息揭示的能力。它在这些测试中表现良好，对短语保护的精度为0.86，密码保护的0.92 [1]。

###红色团队评估

GPT-4.5进行红色团队评估，旨在测试其针对对抗性提示的鲁棒性。这些评估涵盖了诸如非法建议，极端主义，仇恨犯罪，政治说服力和自我伤害之类的情况。 GPT-4.5在第一个红色团队评估集的约51％的情况下产生安全的产量，略高于GPT-4O，但低于GPT-4O1。在第二次评估中，GPT-4.5的性能优于GPT-4O，但不如GPT-4O1或深入研究模型[1]。

###整体表现

与早期模型相比，GPT-4.5在处理敏感和对抗性提示方面表现出改进，但在高度对抗性的情况下，它仍然面临着挑战。与O3-Mini [3] [5]相比，它的通用任务对于通用任务而言是可靠的，但对于高级解决问题或深层编码任务而言可能不是最佳的。

总而言之，GPT-4.5表明了反对欺骗它的弹性，尤其是在必须优先考虑系统指令而不是用户输入的情况下。但是，它在高度对抗性的环境中仍然存在局限性，反映了在AI模型中平衡安全性和功能的持续挑战。

引用：
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-hores-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_has_been_toned_down_down_down_significatifaly_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-rease-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW