GPT-4.5命令階層：安全とセキュリティのためのシステムメッセージの優先順位

GPT-4.5は、ユーザーメッセージよりもシステムメッセージをどのように優先しますか

GPT-4.5は、モデルの安全指示をオーバーライドする可能性のある迅速なインジェクションやその他の攻撃のリスクを軽減するように設計された命令階層を介して、ユーザーメッセージを介したシステムメッセージを優先します。この階層は、メッセージをシステムメッセージとユーザーメッセージの2つの主要なタイプに分類します。システムメッセージは、AIの動作をガイドする本質的に隠された命令であり、ユーザーメッセージはユーザーが提供する入力です。

GPT-4.5では、システムとユーザーのメッセージが競合すると、モデルはユーザーメッセージの命令に従うようにトレーニングされます。これは、これらのタイプのメッセージが競合する例でモデルを監督することによって達成されます。このモデルは、システムメッセージに優先順位を付けて、安全ガイドラインの順守を確保し、望ましくない出力を防ぐことを学びます。

たとえば、ユーザーがモデルをだまして有害な情報を提供しようとする場合、システムメッセージはそのような要求を拒否するようにモデルに指示できます。 GPT-4.5のこの階層を遵守する能力は、安全基準を維持し、モデルが操作されなくなって不許可コンテンツを生成するのを防ぐのに役立ちます。

このアプローチは、GPT-4.5が、巧妙に作成されたユーザー入力を通じてこれらのルールをバイパスしようとする試みに直面した場合でも、意図した安全性および倫理的ガイドラインと一貫して振る舞うことを保証するために重要です。システムメッセージに優先順位を付けることにより、Openaiは、さまざまなアプリケーションでモデルの信頼性とセキュリティを強化することを目指しています[1] [2]。

引用：
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/EverythingSystem-messages-how-to-them-real-world-expents-prompt-injection-protectors
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited to-free-users-and-ven-plus-users-it it-litally-varyly-gives-you-5-messages-5-6-hours-to-free-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-to-plus-and-team-users-next-week-then-to-enterprise-and-edu-users-the-following Week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_efficient_prompt_for_summarizing_gpt4/