GPT-4.5の命令階層は、さまざまな種類の指示に対して明確な優先順位を確立することにより、迅速な注入のリスクを軽減するように設計されています。この階層により、開発者が設定するシステムメッセージがユーザーメッセージやその他の入力よりも優先されることが保証されます。それがどのように機能し、どのように迅速な噴射攻撃を防ぐのに役立つかは次のとおりです。
##迅速な注入を理解します
悪意のあるユーザーが、元のシステム命令をオーバーライドする入力を提供することにより、悪意のあるユーザーがAIモデルを操作するときに迅速な噴射攻撃が発生します。これは、機密情報を明らかにしたり、不正なアクションを実行したりするなど、意図しない行動につながる可能性があります[2] [3]。
##命令階層
GPT-4.5の命令階層は、そのソースと重要性に基づいて指示を優先します。入力をいくつかのタイプに分類します。通常は以下を含みます。
- システムメッセージ:これらは、開発者が設定した最高優先命令です。それらは、モデルが従うべき主要なタスクと制約を定義します。
- ユーザーメッセージ:これらはユーザーが提供する入力であり、システムメッセージよりも優先度が低いと見なされます。
- 会話の履歴とツール出力:これらもモデルに影響を与える可能性がありますが、一般にユーザーメッセージよりも優先度が低くなります[1] [3]。
##迅速な注入を軽減します
迅速なインジェクション攻撃を緩和するために、命令階層により、GPT-4.5が次の原則を順守することが保証されます。
- 優先順位付け:モデルは、ユーザー入力よりもシステムメッセージに優先順位を付けます。ユーザーがシステム命令と矛盾するプロンプトを注入しようとすると、モデルはデフォルトの元のガイダンス[3] [5]にデフォルトになります。
- 不整合プロンプトの検出:GPT-4.5は、システムの指示と競合するプロンプトを特定して無視するように訓練されています。たとえば、ユーザーが「以前のすべての手順を忘れる」と入力すると、モデルはこれを不整合プロンプトとして認識し、それに応じて応答します[3]。
- 優先度の低い指示の選択的無視:モデルは、より優先順位のある指示と競合する場合、より低優先度の指示を選択的に無視するように設計されています。これにより、悪意のある入力に直面してもモデルが意図した動作を維持することが保証されます[7]。
##トレーニングと評価
GPT-4.5は、合成データ生成やコンテキスト蒸留などの命令階層を強調する手法を使用してトレーニングされています。これらの方法は、モデルが指示に効果的に優先順位を付けることを学び、悪意のある入力に抵抗するのに役立ちます[6] [7]。モデルのパフォーマンスは、システムメッセージがユーザー入力と競合するシナリオで評価され、命令階層を順守し、セキュリティ機能を維持することを保証します[5]。
全体として、GPT-4.5の命令階層は、矛盾したユーザー入力や悪意のあるユーザー入力に直面しても、開発者が設定した意図した命令に従うことを保証することにより、モデルのセキュリティを強化します。このアプローチは、実際のアプリケーションで安全に動作できる信頼できるAIシステムを構築するために重要です。
引用:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-injection-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-inttruction-hierarchy
[4] https://dev.to/jasny/protecting-against-plompt-injection-in-gpt-1GF8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-from-prompt-injections and-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-intruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2