ツールベースの特権のエスカレーションまたはコード実行の脆弱性に対する最も強い保護は、現在、大規模な言語モデル(LLM)フレームワークの高度な安全なエージェント設計、特にデュアルエージェントアーキテクチャと迅速なフロー整合性(PFI)の原則を使用しているものから生じています。これらのモデルは、信頼できる信頼できないデータ処理を分離し、厳格な特権分離を実施し、悪意のある迅速なインジェクションと不正なリソースアクセスを防ぐために決定論的セキュリティガードレールを実装することにより、自分自身を区別します。
###セキュアLLMエージェントモデルのコア保護原則
LLMエージェントのエスカレーションリスクを緩和する重要なブレークスルーは、2つの相互通信エージェントへの分割です。敏感または信頼できるデータと運用を処理する信頼できるエージェント(高い特権を持つ)、および不動または攻撃者の導入された入力を処理する信頼できないエージェント(制限されていない特権を持つ)です。このアーキテクチャの分離は、悪意のある入力が影響を与える可能性があるものの範囲を制限し、信頼されていない部品がアクセス権をエスカレートしたり、任意のコードを実行したりする可能性のある操作を実行できないことを保証することにより、最小特権の原則を実施します。
###プロンプトフロー整合性(PFI)フレームワーク
PFIは、LLMエージェント環境内のプロンプトとプラグインデータのフローを安全に管理することにより、特権エスカレーションを防ぐために設計された高度なフレームワークです。ワークフローを提供します。
- 信頼できるエージェントは、ユーザープロンプトを受信し、信頼できるデータを処理します。
- プラグインまたは外部ソースから検出された信頼できないデータは、信頼されていないエージェントにオフロードされます。
- 信頼されていないエージェントには、特権が制限されており、敏感なツールまたは操作へのアクセスが制限されています。
- エージェント間の通信は、信頼できないコンテンツではなくエンコードされたデータ参照を使用し、信頼できるエージェントのコンテキストへの悪意のある注入を防ぎます。
-GuardRailsは、信頼されていないデータと制御命令の流れを監視し、安全でない操作または不正な特権エスカレーションの試みが検出された場合にアラートを上げ、したがって、明示的なユーザーの同意または自動ブロッキングメカニズムが含まれます。
これらのガードレール、DataguardとCtrlguardは決定論的であり、特権レベルとデータの信頼性の厳格な追跡に基づいてデータフローと制御フローポリシーを施行することにより、誤検知またはミスを回避します。このアーキテクチャは、エージェント環境内で悪意のあるコマンドまたはコードを実行するリスクを大幅に削減します。
###以前の防御に対するPFIの比較有効性
PFIのようなフレームワークの前に、一般的な防御は、有害な迅速な生成またはコマンドの実行を阻止するために、モデルの微調整とコンテキスト内の学習に大きく依存していました。役立ちますが、これらの確率的アプローチはバイパスに対して脆弱でした。他のアプローチでは、信頼できる/信頼されていないパーティションが導入されましたが、多くの場合、決定論的なガードレールが欠けているため、セキュリティ保証が不完全になりました。
PFIはこれらの防御を組み合わせて強化します。
- 信頼されていないコンテンツを特定するためのデータソースの分類を信頼します。
- 複数のリダイレクトされたエージェントを介して実施される厳格な特権分離。
- 正式なガードレールメカニズムを備えた迅速なフローポリシー施行。
- 疑わしいフローに関するリアルタイムのアラートとユーザーの承認。
Results from benchmark tests show PFI dramatically reduces privilege escalation and prompt injection attack success rates to near zero, far outperforming earlier systems like ReAct agent, IsolateGPT, and f-secure LLM, while maintaining higher operational usability.
###これらの保護がコードの実行リスクを緩和する方法
ツールベースのエスカレーションは、攻撃者がLLMエージェントをだまして不正なシェルコマンドを発行したり、任意のコードを実行したりするようにトリックすると、しばしば発生します。低主経環境で信頼されていない入力を分離し、データフローを厳密にスクリーニングおよび制御することにより、これらのモデルは攻撃者の入力が信頼できるエージェントの実行コンテキストまたは特権の向上を腐敗させるのを防ぎます。
さらに、信頼されていないエージェントにはプラグインが限られており、重要なシステムコマンドや機密のAPIへのアクセスがないため、コードを実行したり、特権をエスカレートしようとする悪意のある試みは失敗するか、早期にフラグが立てられます。信頼できるエージェントは、信頼されていない生データを直接処理することはありませんが、有害な指示を埋め込むことができないサニタイズされたプロキシまたは参照でのみ機能します。
LLMSを超えた特権エスカレーションに関する追加コンテキスト
ここでの焦点はLLMベースのモデルにありますが、特権のエスカレーションは従来のITセキュリティにおいて十分に研究されている問題であることに注意する価値があります。一般的な緩和戦略は次のとおりです。
- 厳密なオペレーティングシステムレベルのサンドボックスとコンテナ化。
- 最小特権アクセス制御と役割ベースのアクセス。
- 包括的なコードレビューと安全なコーディングプラクティス。
- 侵入防止システム(IPS)と検出とブロッキングのための自動化されたツールの使用。
これらの原則は、特にLLMがより広範なシステムインフラストラクチャと統合されている場合、安全なモデルの展開を補完し、時にはそれを支えます。
***
結論として、デュアルエージェントアーキテクチャと決定論的ガードレールを備えた迅速なフローの完全性を実装するモデルは、LLM環境でのツールベースの特権エスカレーションと不正なコード実行に対する最も強力な現代保護を提供します。信頼されていない入力を分離し、特権を最小限に抑え、データと制御フローを厳密に監視するアプローチは、迅速な注入とエスカレーション攻撃のほぼ完全な軽減を実現し、以前のMLベースまたはエージェントの分離防御を上回ります。