GPT-4.5的指令层次结构旨在通过为不同类型的指令建立明确的优先顺序来减轻迅速注射的风险。该层次结构可确保由开发人员设置的系统消息优先于用户消息和其他输入。这是它的工作原理以及如何帮助防止迅速注射攻击的方法:
##理解提示注射
当恶意用户通过提供覆盖原始系统说明的输入来操纵AI模型时,就会发生及时注射攻击。这可能会导致意外行为,例如揭示敏感信息或执行未经授权的动作[2] [3]。
##说明层次结构
GPT-4.5中的指令层次结构根据其来源和重要性确定指令的优先级。它将输入分为几种类型,通常包括:
- 系统消息:这些是开发人员设定的最高优先级指令。他们定义了模型应遵循的主要任务和约束。
- 用户消息:这些是用户提供的输入,被认为比系统消息的优先级低。
- 对话历史记录和工具输出:这些也可能影响模型,但优先级通常比用户消息要低[1] [3]。
##缓解提示注射
为了减轻及时的注射攻击,指令层次结构可确保GPT-4.5遵守以下原则:
- 优先级:该模型优先考虑系统消息而不是用户输入。如果用户试图注入与系统指令相矛盾的提示,则该模型将默认为原始指南[3] [5]。
- 检测未对准的提示:GPT-4.5经过培训,以识别和忽略与系统指示相抵触的提示。例如,如果用户输入“忘记所有以前的说明”,则该模型将识别为未对准的提示并做出相应的响应[3]。
- 选择性忽略较低优先级指令:该模型旨在选择性地忽略低优先级指令与较高优先级的指令。这样可以确保即使面对恶意输入,模型也能保持其预期的行为[7]。
##培训和评估
GPT-4.5是使用强调指令层次结构的技术进行训练的,例如合成数据生成和上下文蒸馏。这些方法有助于该模型学会优先考虑指令并抵抗恶意输入[6] [7]。在系统消息与用户输入冲突,确保其遵守指令层次结构并保持其安全功能[5]的情况下,对模型的性能进行了评估[5]。
总体而言,GPT-4.5中的指令层次结构通过确保遵循开发人员设定的预期说明,即使面对冲突或恶意用户的输入,也可以增强模型的安全性。这种方法对于构建可以在实际应用程序中安全运行的可信赖的AI系统至关重要。
引用:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/lealen/prompt-injection-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/protecting-against-prompt-inpoction-in-gpt-1GF8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-from-prom-prompt-injections-and-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2