与早期版本相比,GPT-4.5证明了处理相互矛盾的说明的性能,尤其是通过增强了指令层次结构的依从性。该层次结构允许模型优先考虑系统消息,而不是用户输入,从而减轻了冲突的提示中的风险。在评估中,GPT-4.5通常在系统和用户消息冲突的情况下优于GPT-4O,表明更好地遵循安全指示的能力并避免被对抗性提示欺骗[1] [5]。
###处理冲突指示的关键改进
1。指令层次结构评估:GPT-4.5在以下系统指令上比用户消息显示了提高的准确性。例如,在指示模型不给出数学问题的答案的情况下,GPT-4.5的性能优于GPT-4O,尽管不如GPT-4O1 [1]。
2。缓解及时注射:通过对系统消息进行优先级,GPT-4.5降低了迅速注射的风险和其他可能覆盖其安全说明的攻击的风险。这对于维持模型的完整性和防止滥用至关重要[1] [5]。
3。现实的场景:在更现实的场景中,例如在充当数学导师时,GPT-4.5更好地倾向于抵制试图欺骗其提供未经授权的信息。但是,它的性能并不完美,可以根据所提供的特定上下文和指示而有所不同[1]。
4.安全评估:GPT-4.5经过严格的安全评估,以确保其不符合有害内容的请求。尽管它在拒绝不安全的内容方面表现良好,但它可能比以前的模型过度过多,这表明处理模棱两可或潜在风险提示的谨慎方法[1]。
总体而言,GPT-4.5通过更紧密地遵守系统准则并减少对抗性用户输入的影响,在处理冲突指令方面提供了重大改进。但是,像所有AI模型一样,它并不能免疫所有形式的操纵,并且随着持续的安全评估和更新而继续发展[1] [5]。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://getTalkative.com/info/gpt-models-comparped
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-hores-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_has_been_toned_down_down_down_significatifaly_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-5-orion-ai-model-reare
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-rounconing