GPT-4.5矛盾する指示と安全性の改善を処理する際の強化

GPT-4.5のパフォーマンスは、競合する指示を処理する際の以前のバージョンと比較してどうですか

GPT-4.5は、特に命令階層への順守が強化されたことにより、以前のバージョンと比較して、競合する命令の処理におけるパフォーマンスの改善を示しています。この階層により、モデルはユーザー入力よりもシステムメッセージに優先順位を付けることができ、競合するプロンプトからのリスクを軽減できます。評価では、GPT-4.5は一般に、システムとユーザーメッセージが競合するシナリオでGPT-4Oを上回り、安全指示に従い、敵対的なプロンプトにだまされないことを示しています[1] [5]。

###矛盾する指示の処理における重要な改善

1。命令階層評価：GPT-4.5は、ユーザーメッセージを介したシステム命令における精度の向上を示しています。たとえば、モデルが数学の質問への答えを提供しないように指示されるシナリオでは、GPT-4OよりもGPT-4Oよりも優れたパフォーマンスはありますが、GPT-4O1 [1]はそうではありません。

2。迅速な注入の緩和：システムメッセージに優先順位を付けることにより、GPT-4.5は、安全指示を無効にする可能性のある迅速な注射やその他の攻撃のリスクを減らします。これは、モデルの完全性を維持し、誤用を防ぐために重要です[1] [5]。

3.現実的なシナリオ：数学の家庭教師として行動するときなど、より現実的なシナリオでは、GPT-4.5は、それをだまして不正な情報を提供する試みに抵抗するのに優れています。ただし、そのパフォーマンスは完全ではなく、特定のコンテキストと提供された指示によって異なる場合があります[1]。

4.安全評価：GPT-4.5は、有害なコンテンツの要求に準拠していないことを確認するために、厳しい安全性評価を受けます。危険なコンテンツを拒否するのはうまく機能しますが、以前のモデルよりも多くの繰り返しを使用する可能性があり、曖昧または潜在的に危険なプロンプトを処理するための慎重なアプローチを示しています[1]。

全体として、GPT-4.5は、システムのガイドラインにより密接に順守し、敵対的なユーザー入力の影響を減らすことにより、矛盾する指示の取り扱いに大幅な改善を提供します。ただし、すべてのAIモデルと同様に、あらゆる形態の操作の免疫がなく、継続的な安全評価と更新で進化し続けています[1] [5]。

引用：
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-giggest-differences to-sonsider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r//openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-5-5-Orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-rainsing