GPT-4.5旨在通过指令层次结构处理相互矛盾的说明,该指令将系统消息优先于用户消息,以减轻诸如及时注射和其他攻击之类的风险覆盖安全说明[1]。但是,GPT-4.5是否可以适应尚未接受过培训的新类型的冲突指令是一个复杂的问题。
###培训和评估
GPT-4.5已通过新的监督技术与传统方法相结合,例如从人类反馈(RLHF)[1]结合使用的传统方法。这些方法旨在改善模型与用户意图的一致性及其更准确地遵循说明的能力。该模型已在系统和用户消息冲突的各种情况下进行了评估,显示了与GPT-4O等先前模型[1]相比的改进。
###适应新的冲突说明
尽管GPT-4.5在处理已知类型的冲突指令中表现出更好的性能,但它适应全新的冲突类型的能力取决于几个因素:
1。概括能力:GPT-4.5的培训包括扩展无监督的学习,这增强了其概括和理解更广泛背景的能力[1]。这可能有可能帮助它识别新的冲突指示中的模式。
2。指令层次结构:模型的指令层次结构旨在确定系统消息的优先级,这有助于维持安全性和遵守预定义规则。但是,如果新的冲突说明不在该层次结构的范围之内,那么该模型可能在没有其他培训或微调的情况下很难适应。
3。及时的工程和脚手架:用户可以采用高级提示技术或脚手架来指导模型以理解和遵循新的说明。这种方法可以帮助引起超越模型的行为[1]。
4。限制和安全评估:尽管有所改进,但GPT-4.5仍面临处理复杂或新颖方案的挑战。安全评估表明,尽管该模型在已知的任务上表现良好,但总是有可能在不可预见的环境中遵循说明的风险[1]。
### 结论
尽管GPT-4.5在处理冲突指令方面的能力比其前任更有能力,但其对全新冲突类型的适应性受到培训数据和设计的限制。它可能需要其他微调或创造性的提示策略,以有效处理新颖的情况。正在进行的研究和用户与GPT-4.5的互动将提供更多有关其在该领域的功能和局限性的见解。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-faking-in-lange-lange-lange-langue-models-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_week_what_are_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_has_been_toned_down_down_down_significatifaly_and/