GPT-4.5处理矛盾的说明和安全改进方面的增强功能

GPT-4.5的性能与处理冲突说明的早期版本相比如何

与早期版本相比，GPT-4.5证明了处理相互矛盾的说明的性能，尤其是通过增强了指令层次结构的依从性。该层次结构允许模型优先考虑系统消息，而不是用户输入，从而减轻了冲突的提示中的风险。在评估中，GPT-4.5通常在系统和用户消息冲突的情况下优于GPT-4O，表明更好地遵循安全指示的能力并避免被对抗性提示欺骗[1] [5]。

###处理冲突指示的关键改进

1。指令层次结构评估：GPT-4.5在以下系统指令上比用户消息显示了提高的准确性。例如，在指示模型不给出数学问题的答案的情况下，GPT-4.5的性能优于GPT-4O，尽管不如GPT-4O1 [1]。

2。缓解及时注射：通过对系统消息进行优先级，GPT-4.5降低了迅速注射的风险和其他可能覆盖其安全说明的攻击的风险。这对于维持模型的完整性和防止滥用至关重要[1] [5]。

3。现实的场景：在更现实的场景中，例如在充当数学导师时，GPT-4.5更好地倾向于抵制试图欺骗其提供未经授权的信息。但是，它的性能并不完美，可以根据所提供的特定上下文和指示而有所不同[1]。

4.安全评估：GPT-4.5经过严格的安全评估，以确保其不符合有害内容的请求。尽管它在拒绝不安全的内容方面表现良好，但它可能比以前的模型过度过多，这表明处理模棱两可或潜在风险提示的谨慎方法[1]。

总体而言，GPT-4.5通过更紧密地遵守系统准则并减少对抗性用户输入的影响，在处理冲突指令方面提供了重大改进。但是，像所有AI模型一样，它并不能免疫所有形式的操纵，并且随着持续的安全评估和更新而继续发展[1] [5]。

引用：
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://getTalkative.com/info/gpt-models-comparped
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-hores-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_has_been_toned_down_down_down_significatifaly_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-5-orion-ai-model-reare
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-rounconing