공구 기반 에스컬레이션 또는 코드 실행에 대한 강력한 보호를 제공하는 모델

도구 기반 권한 에스컬레이션 또는 코드 실행 취약성에 대한 가장 강력한 보호는 현재 LLM (Language Model) 프레임 워크의 고급 보안 에이전트 설계, 특히 이중 에이전트 아키텍처 및 프롬프트 흐름 무결성 (PFI) 원칙을 사용하는 것입니다. 이러한 모델은 신뢰할 수 있고 신뢰할 수없는 데이터 처리를 분리하고 엄격한 권한 분리를 시행하며 악의적 인 프롬프트 주입 및 무단 리소스 액세스를 방지하기 위해 결정 론적 경비원을 구현함으로써 스스로를 구별합니다.

보안 LLM 에이전트 모델의 핵심 보호 원리

A key breakthrough in mitigating escalation risks in LLM agents is the division into two intercommunicating agents: a trusted agent (with high privileges) that handles sensitive or trusted data and operations, and an untrusted agent (with restricted privileges) that processes potentially unsafe or attacker-controlled input. 이 아키텍처 격리는 악의적 인 입력에 영향을 줄 수있는 범위를 제한하고 신뢰할 수없는 부품이 액세스 권한을 에스컬레이션하거나 임의의 코드를 실행할 수있는 작업을 수행 할 수 없도록함으로써 최소 특권의 원칙을 시행합니다.

프롬프트 흐름 무결성 (PFI) 프레임 워크

PFI는 LLM 에이전트 환경 내에서 프롬프트 및 플러그인 데이터의 흐름을 안전하게 관리함으로써 권한 에스컬레이션을 방지하도록 설계된 고급 프레임 워크입니다. 그것은 다음과 같은 워크 플로를 제공합니다.

- 신뢰할 수있는 에이전트는 사용자 프롬프트 및 프로세스 신뢰할 수있는 데이터를받습니다.
- 플러그인 또는 외부 소스에서 감지되지 않은 신뢰할 수없는 데이터는 신뢰할 수없는 에이전트에 오프로드됩니다.
- 신뢰할 수없는 에이전트는 특권을 제한하고 민감한 툴링 또는 운영에 대한 접근이 제한되어 있습니다.
- 에이전트 간의 통신은 신뢰할 수없는 컨텐츠가 아닌 인코딩 된 데이터 참조를 사용하여 신뢰할 수있는 에이전트의 컨텍스트에 악의적 인 주입을 방지합니다.
- 가드 레일은 신뢰할 수없는 데이터 및 제어 지침의 흐름을 모니터링하고 안전하지 않은 운영 또는 무단 권한 에스컬레이션 시도가 감지되는 경우 경고를 높이므로 명시 적 사용자 동의 또는 자동 차단 메커니즘이 포함됩니다.

이 Guardrails, Dataguard 및 Ctrlguard는 권한 수준 및 데이터 신뢰성을 엄격하게 추적하는 데 기반한 데이터 흐름 및 제어 흐름 정책을 시행하여 결정 론적이며 잘못된 양성 또는 놓치는 것을 피합니다. 이 아키텍처는 에이전트 환경 내에서 악의적 인 명령 또는 코드를 실행할 위험을 크게 줄입니다.

이전 방어에 대한 PFI의 비교 효과

PFI와 같은 프레임 워크 이전에, 일반적인 방어는 모델 미세 조정 및 텍스트 내 학습에 크게 의존하여 유해한 프롬프트 생성 또는 명령 실행을 방해했습니다. 도움이되었지만 이러한 확률 적 접근은 우회에 취약했습니다. 다른 접근법은 신뢰할 수있는/신뢰할 수없는 파티션을 도입했지만 종종 결정 론적가 보호 레일이 부족하여 불완전한 보안 보장을 초래했습니다.

PFI는 다음을 결합하여 이러한 방어를 향상시킵니다.

- 신뢰할 수없는 컨텐츠를 식별하기위한 데이터 소스의 신뢰 분류.
- 여러 리디렉션 된 에이전트를 통해 엄격한 특권 분리.
- 공식 가드 레일 메커니즘을 사용한 신속한 흐름 정책 시행.
- 의심스러운 흐름에 대한 실시간 경고 및 사용자 승인.

벤치 마크 테스트 결과 PFI는 PFI가 특권 에스컬레이션 및 프롬프트 주입 공격 성공률을 0으로 극적으로 감소시켜 REACT Agent, IrlatePTP 및 F-Secure LLM과 같은 초기 시스템을 훨씬 능가하는 동시에 더 높은 운영 유용성을 유지합니다.

이러한 보호가 코드 실행 위험을 완화하는 방법

도구 기반 에스컬레이션은 공격자 입력이 LLM 에이전트가 무단 쉘 명령을 발행하거나 임의의 코드를 실행하도록 속일 때 종종 발생합니다. 소외 환경에서 신뢰할 수없는 입력을 분리하고 데이터 흐름을 엄격하게 스크리닝하고 제어함으로써 이러한 모델은 공격자가 신뢰할 수있는 에이전트의 실행 컨텍스트를 손상 시키거나 권한을 높이는 것을 방지합니다.

또한 신뢰할 수없는 에이전트는 플러그인이 제한적이고 중요한 시스템 명령 또는 민감한 API에 대한 액세스 권한이 없기 때문에 코드를 실행하거나 권한 에스컬레이션을위한 악의적 인 시도가 실패하거나 조기에 표시됩니다. 신뢰할 수있는 에이전트는 신뢰할 수없는 원시 데이터를 직접 처리하지 않지만 유해한 지침을 포함 할 수없는 소독된 프록시 또는 참조 만 사용합니다.

LLM 이외의 권한 에스컬레이션에 대한 추가 컨텍스트

여기서 LLM 기반 모델에 중점을두고 있지만, 특권 에스컬레이션은 전통적인 IT 보안에서 잘 연구 된 문제라는 점에 주목할 가치가 있습니다. 공격자는 소프트웨어 취약점을 활용하여 무단 액세스 또는 제어를 얻습니다. 일반적인 완화 전략에는 다음이 포함됩니다.

- 엄격한 운영 체제 수준 샌드 박스 및 컨테이너화.
- 최소한의 권한 액세스 제어 및 역할 기반 권한.
- 포괄적 인 코드 검토 및 안전한 코딩 관행.
- 침입 예방 시스템 (IPS) 및 감지 및 차단을위한 자동 도구 사용.

이러한 원칙은 특히 LLM이 광범위한 시스템 인프라와 통합 될 때 보완되고 때로는 안전한 모델 배포를 뒷받침합니다.

***

결론적으로, 이중 에이전트 아키텍처 및 결정 론적 가드 레일로 신속한 흐름 무결성을 구현하는 모델은 LLM 환경에서 도구 기반 권한 에스컬레이션 및 무단 코드 실행에 대한 가장 강력한 현대 보호 기능을 제공합니다. 신뢰할 수없는 입력을 분리하고, 특권이 가장 적은 특권을 시행하며, 데이터 및 제어 흐름을 엄격하게 모니터링하는 데 대한 그들의 접근 방식은 프롬프트 주입 및 에스컬레이션 공격의 거의 완화 된 완화를 달성하여 이전 ML 기반 또는 에이전트 격리 방어를 능가합니다.