GPT-4.5は、ユーザーメッセージを介してシステムメッセージを優先して、迅速なインジェクションやその他の攻撃などの安全指示を緩和するために、ユーザーメッセージを介してシステムメッセージを優先するように設計されています[1]。ただし、GPT-4.5が訓練されていない新しいタイプの矛盾する指示に適応できるかどうかは、複雑な問題です。
###トレーニングと評価
GPT-4.5は、監視された微調整(SFT)や人間のフィードバックからの補強学習(RLHF)などの従来の方法と組み合わせた新しい監督技術を使用して訓練されています[1]。これらの方法は、ユーザーの意図とより正確に命令に従う能力とのモデルの整合を改善することを目的としています。このモデルは、システムとユーザーメッセージが競合するさまざまなシナリオで評価されており、GPT-4Oのような以前のモデルの改善を示しています[1]。
###新しい矛盾する指示への適応性
GPT-4.5は、既知のタイプの矛盾する指示の処理においてより良いパフォーマンスを示していますが、まったく新しいタイプの競合に適応する能力はいくつかの要因に依存します。
1。一般化機能:GPT-4.5のトレーニングには、監視されていない学習のスケーリングが含まれます。これにより、より広範なコンテキストを一般化および理解する能力が向上します[1]。これは、新しい矛盾する指示のパターンを認識する可能性があります。
2。命令階層:モデルの命令階層は、定義されたルールの安全性と順守を維持するのに役立つシステムメッセージに優先順位を付けるように設計されています。ただし、新しい矛盾する指示がこの階層の範囲外にある場合、モデルは追加のトレーニングや微調整なしで適応するのに苦労するかもしれません。
3。迅速なエンジニアリングと足場:ユーザーは、高度なプロンプト技術または足場を採用して、モデルを理解し、新しい指示に従うように導くことができます。このアプローチは、モデルが明示的に訓練されたものを超えて行動を引き出すのに役立ちます[1]。
4。制限と安全評価:改善にもかかわらず、GPT-4.5は、複雑なシナリオまたは新しいシナリオの処理において依然として課題に直面しています。安全評価は、モデルは既知のタスクでうまく機能するが、予期せぬコンテキストで指示に従わないリスクが常にあることを示しています[1]。
### 結論
GPT-4.5は、矛盾する指示を処理する上で前任者よりも能力がありますが、完全に新しいタイプの競合への適応性は、トレーニングデータと設計によって制限されています。新しいシナリオを効果的に処理するために、追加の微調整または創造的なプロンプト戦略が必要になる場合があります。 GPT-4.5との継続的な研究とユーザーのやり取りは、この分野での能力と制限に関するより多くの洞察を提供します。
引用:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-in-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significlyly_and/