与早期版本相比,GPT-4.5证明了处理相互矛盾的说明的性能,尤其是通过其增强的说明层次结构。此功能允许模型优先考虑系统消息,而不是用户输入,减轻与及时注射有关的风险以及可能覆盖安全说明的其他攻击。
在涉及矛盾消息类型的评估中,GPT-4.5通常胜过GPT-4O。对模型进行了训练,以遵循最高优先级消息中的说明,这有助于系统和用户消息冲突的情况。例如,在指示模型不给予数学问题的答案的情况下,与GPT-4O相比,GPT-4.5在所有评估中都没有超过GPT-4O1 [1]。
此外,在必须保护特定短语或密码免于通过用户提示显示的特定短语或密码的方案,已评估了GPT-4.5。在这些评估中,GPT-4.5表现良好,表明即使面对相互冲突的用户输入,它也能够维护安全性并遵循系统指令[1]。
但是,尽管GPT-4.5在处理冲突指示的早期模型上有所改善,但在某些复杂情况下,它仍然面临挑战。模拟对抗性提示的红色团队评估中该模型的性能表明,在某些情况下,该模型在某些情况下可以产生不安全的输出,尽管在这些具有挑战性的测试中通常比GPT-4O表现更好[1]。
总体而言,GPT-4.5在处理冲突指令方面的增强功能使其成为需要严格遵守安全指南和系统说明的应用程序的更可靠的选择。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://getTalkative.com/info/gpt-models-comparped
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-hores-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_has_been_toned_down_down_down_significatifaly_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-5-orion-ai-model-reare
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-rounconing