GPT-4.5は、命令階層を介してシステムとユーザーメッセージの間の矛盾する命令を処理するように設計されています。この階層は、モデルがユーザーメッセージを介してシステムメッセージを優先して、モデルの安全指示をオーバーライドする可能性のある迅速なインジェクションやその他の攻撃など、競合するプロンプトに関連するリスクを軽減するのに役立ちます。
###命令階層の重要な機能
1。メッセージ分類:GPT-4.5は、システムメッセージとユーザーメッセージの2種類のメッセージを区別します。システムメッセージはより高い権限と見なされ、モデルの安全ガイドラインまたは特定の指示を設定するために使用されます。
2。競合解決:システムとユーザーメッセージが競合する場合、GPT-4.5はシステムメッセージの指示に従うように訓練されています。これにより、モデルが安全ガイドラインを順守し、有害または禁止された活動に従事しないことが保証されます。
3。評価とトレーニング:モデルは、さまざまなシナリオを通じて競合を処理する能力について評価されます。たとえば、モデルが数学の問題(システムメッセージ)への回答を提供しないように指示されているシナリオで、ユーザーはそれをトリックしてそうする(ユーザーメッセージ)、GPT-4.5はユーザーの試みに抵抗し、システム命令に従う必要があります。
4。パフォーマンス:GPT-4.5は一般にこれらの評価でうまく機能し、システムユーザーメッセージの競合を処理するGPT-4Oなどの以前のモデルよりも改善を示します。ただし、特定のジェイルブレイクテストのように、GPT-4OやGPT-4O1と同様に実行されない可能性のある特定のシナリオがあります。
###安全評価
GPT-4.5は、憎しみや違法なアドバイスなど、許可されていないコンテンツを生成しないように、厳しい安全性評価を受けます。これらの評価は、安全性のトピックに関連する良性プロンプトを過剰に再洗浄するモデルの傾向を評価します。これらの分野でのモデルのパフォーマンスは、矛盾する指示を処理する際に安全性と信頼性を維持するために重要です[1]。
###モデル仕様と権限レベル
モデル仕様は、さまざまな種類の指示の権限レベルの概要を示しており、プラットフォームレベルの指示が最も高い権限を持ち、開発者とユーザーの指示が続きます。この階層により、GPT-4.5が安全性を優先し、ガイドラインに準拠し、ユーザーと開発者による設定境界内のカスタマイズを許可します[2] [5]。
全体として、GPT-4.5の矛盾する指示を処理する能力は、その設計の重要な側面であり、ユーザーと対話しながら安全性と完全性を維持することを保証します。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/