GPT-4.5采用多种技术来处理相互矛盾的消息,尤其是通过其指令层次结构系统。该层次结构为消息建立了优先顺序,确保系统消息优先于用户消息,对话历史记录和工具输出[1] [2]。
###指令层次结构
1。系统消息与用户消息:GPT-4.5经过训练,可以按照冲突的用户消息遵循系统消息中的说明。在用户输入可能试图覆盖安全指南或格式化系统[1] [2]的格式规则的情况下,这至关重要。
2。解决冲突:该模型是根据其解决不同类型消息之间冲突的能力进行评估的。例如,如果系统消息指示该模型不透露特定的短语或密码,并且用户消息试图欺骗模型这样做,则GPT-4.5旨在遵守系统消息的说明[1]。
3。培训和评估:GPT-4.5接受广泛的培训和评估,以确保它可以处理系统和用户消息冲突的复杂方案。这包括模型必须在遵循系统指令或与之矛盾的用户请求之间进行选择的方案[1] [2]。
###监督微调(SFT)
GPT-4.5还利用了监督的微调(SFT),其中涉及在存在冲突消息的特定示例上训练模型。此技术有助于提高模型识别和优先考虑系统指令而不是用户输入的能力,从而提高其在处理冲突方案中的性能[3]。
###新对准技术
此外,GPT-4.5结合了新的对准技术,以增强其对人类偏好和意图的理解。这些技术有助于该模型更好地解释系统和用户消息背后的背景和意图,从而使其在处理冲突时做出更明智的决策[5]。
总体而言,GPT-4.5处理冲突信息的方法将高级培训方法与结构化指令结合在一起,以确保模型优先级安全和遵守系统准则。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-hores-how-good-this-model-is
[4] https://community.openai.com/t/how-to-to-mimprove-gpt-4-api-unput-length-and-scruce/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_has_been_toned_down_down_down_significatifaly_and/