GPT-4.5は、特にその命令階層システムを介して、競合するメッセージを処理するためのいくつかの手法を採用しています。この階層は、メッセージの優先順位を確立し、ユーザーメッセージ、会話履歴、ツール出力[1] [2]よりもシステムメッセージが優先されるようにします。
###命令階層
1。システムメッセージ対ユーザーメッセージ:GPT-4.5は、競合するユーザーメッセージをめぐるシステムメッセージの指示に従うようにトレーニングされています。これは、ユーザーの入力がシステムによって設定された安全ガイドラインまたはフォーマットルールをオーバーライドしようとするシナリオで重要です[1] [2]。
2。競合解決:モデルは、異なるタイプのメッセージ間の競合を解決する能力について評価されます。たとえば、システムメッセージがモデルに特定のフレーズやパスワードを表示しないように指示し、ユーザーメッセージがモデルをだましてそうするように試みた場合、GPT-4.5はシステムメッセージの命令[1]を遵守するように設計されています。
3。トレーニングと評価:GPT-4.5は、システムとユーザーメッセージが競合する複雑なシナリオを確実に処理できるように、広範なトレーニングと評価を受けます。これには、モデルがシステム命令に従うか、それと矛盾するユーザーの要求に従うかを選択する必要があるシナリオが含まれます[1] [2]。
###監視された微調整(SFT)
GPT-4.5は、監視された微調整(SFT)も利用しています。これには、競合するメッセージが存在する特定の例でモデルをトレーニングすることが含まれます。この手法は、ユーザー入力よりもシステム命令を認識して優先順位を付けるモデルの能力を向上させ、競合するシナリオの処理におけるパフォーマンスを向上させるのに役立ちます[3]。
###新しいアライメント手法
さらに、GPT-4.5には、人間の好みと意図の理解を高める新しいアライメント手法が組み込まれています。これらの手法は、モデルがシステムとユーザーメッセージの両方の背後にあるコンテキストと意図をよりよく解釈するのに役立ち、競合を処理する際に、より多くの情報に基づいた決定を下すことができます[5]。
全体として、競合するメッセージを処理するGPT-4.5のアプローチは、高度なトレーニング方法と命令の構造的な階層を組み合わせて、モデルがシステムガイドラインの安全性と順守を優先するようにします。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-ond-cruture/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significlyly_and/