敵対的なプロンプトと安全メカニズムに対するGPT-4.5のパフォーマンスを評価します

ユーザーメッセージがモデルをトリックしようとするシナリオでのGPT-4.5のパフォーマンスは、いくつかの評価を通じて評価され、敵対的なプロンプトに抵抗し、安全基準を維持する能力に焦点を当てています。

###安全評価と脱獄

1。脱獄評価：これらのテストでは、GPT-4.5がその安全メカニズムを回避しようとするGPT-4.5がどれだけうまく抵抗しますか。このモデルは、人間が支援した脱獄と、一般的な敵対攻撃に対する抵抗を評価する強力なベンチマークに対して評価されます。 GPT-4.5は、人間が育てた脱獄でうまく機能し、0.99の高精度を達成します。ただし、強力なベンチマークでは、0.34のスコアを獲得します。これは、GPT-4O1の0.87のスコアよりもわずかに低い[1]。

2。命令階層評価：迅速なインジェクション攻撃を緩和するために、GPT-4.5は指示の階層に従うように訓練され、ユーザーメッセージよりもシステムメッセージに優先順位を付けます。システムとユーザーメッセージが競合する評価では、GPT-4.5は一般に0.76の精度でうまく機能します。これはGPT-4Oよりも改善されていますが、GPT-4O1のパフォーマンスをわずかに下回っています[1]。

3。家庭教師の脱獄：モデルが数学の質問への回答を明らかにしないように指示されているシナリオでは、GPT-4.5は0.77の精度で中程度の成功を示します。これはGPT-4Oよりも大幅に改善されていますが、GPT-4O1のパフォーマンスほど高くはありません[1]。

4。フレーズとパスワードの保護：GPT-4.5は、ユーザーメッセージを介して特定のフレーズまたはパスワードが明らかにされることから保護する機能についても評価されます。これらのテストでは、フレーズ保護のために0.86、パスワード保護のために0.92の精度でうまく機能します[1]。

###赤チームの評価

GPT-4.5は、敵対的なプロンプトに対する堅牢性をテストするために設計された赤いチーム化評価を受けます。これらの評価は、違法なアドバイス、過激主義、憎悪犯罪、政治的説得、自傷行為などのシナリオをカバーしています。 GPT-4.5は、GPT-4Oよりわずかに高いが、GPT-4O1よりも低い最初の赤いチーム化評価セットの約51％で安全な出力を生成します。リスクの高いアドバイスに焦点を当てた2回目の評価では、GPT-4.5はGPT-4Oよりも優れていますが、GPT-4O1または深い研究モデルと同様に機能しません[1]。

###全体的なパフォーマンス

GPT-4.5は、以前のモデルと比較して、敏感で敵対的なプロンプトの取り扱いの改善を示していますが、非常に敵対的なシナリオでは依然として課題に直面しています。そのパフォーマンスは汎用タスクでは堅実ですが、O3-MINI [3] [5]などの特殊なモデルと比較して、高度な問題解決または深いコーディングタスクには最適ではない場合があります。

要約すると、GPT-4.5は、特にユーザー入力よりもシステム命令に優先順位を付ける必要があるシナリオで、それをだまそうとする試みに対する回復力を示しています。ただし、AIモデルの安全性と機能性のバランスをとる継続的な課題を反映して、非常に敵対的なコンテキストでは依然として制限があります。

引用：
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://www.reddit.com/r//openai/comments/18monbs/gpt_4_has_been_toned_down_significlanty_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw

GPT-4.5は、ユーザーメッセージがモデルをトリックしようとするシナリオでどのように実行されますか