目前,针对基于工具的特权升级或代码执行漏洞的最强保护来自大型语言模型(LLM)框架的高级安全代理设计,尤其是那些使用双级代理体系结构和及时流量完整性(PFI)原理的框架。这些模型通过隔离受信任和未经信任的数据处理,执行严格的特权分离以及实施确定性的安全护栏以防止恶意及时注入和未经授权的资源访问来区分自己。
###安全LLM代理模型中的核心保护原则
LLM代理中缓解升级风险的关键突破是分为两个间断的代理:可信赖的代理(具有高特权)处理敏感或受信任的数据和操作,以及一个未经信任的代理(受限制的特权),可以处理潜在的不安全或攻击者或攻击者控制的输入。这种架构隔离限制了恶意输入会影响什么范围,并通过确保不信任的部件无法执行可以升级其访问权利或执行任意代码的操作来影响最低特权的原则。
###提示流完整性(PFI)框架
PFI是一个高级框架,旨在通过在LLM代理环境中安全地管理提示和插件数据的流程来防止特权升级。它提供了一个工作流程:
- 受信任的代理接收用户提示和流程受信任的数据。
- 从插件或外部来源检测到的不受信任的数据被卸载到未经信任的代理上。
- 不受信任的代理具有限制特权,并且对敏感工具或操作的访问有限。
- 代理之间的通信使用编码的数据参考,而不是原始的不信任内容,从而防止了恶意注入受信任的代理的上下文中。
- 护栏监视不受信任的数据和控制说明的流动,提高警报是否检测到不安全的操作或未经授权的特权升级尝试,从而涉及显式用户同意或自动阻止机制。
这些护栏,数据核心和ctrlguard是确定性的,并且通过严格跟踪特权级别和数据可信度的严格跟踪来执行数据流和控制流策略,避免误报或错过。该体系结构大大降低了在代理环境中执行恶意命令或代码的风险。
PFI对先前防御的比较有效性
在PFI之类的框架之前,共同的防御措施在很大程度上依赖模型进行微调和内在的学习来阻止有害的及时生成或命令执行。尽管有帮助,但这些概率方法很容易受到绕行的影响。其他方法引入了受信任/不信任的分区,但经常缺乏确定性的护栏,从而导致不完整的安全保证。
PFI通过合并来增强这些防御:
- 数据源的信任分类以识别不信任的内容。
- 严格的特权分离通过多个重定向代理执行。
- 迅速采用正式的护栏机制进行流动政策执法。
- 对可疑流的实时警报和用户批准。
基准测试的结果表明,PFI大大降低了特权升级,并迅速注射攻击成功率接近零,远远超过了较早的系统,例如React Agent,Inalategpt和F-Secure LLM,同时保持较高的操作可用性。
###这些保护如何减轻代码执行风险
基于工具的升级通常会在攻击者输入欺骗LLM代理发出未经授权的外壳命令或执行任意代码时会产生。通过在低特你环境中隔离不信任的输入,并严格筛选和控制数据流,这些模型阻止了攻击者输入破坏受信任代理的执行环境或提升特权。
此外,由于不受信任的代理的插件有限,并且无法访问关键系统命令或敏感API,因此任何恶意执行代码或升级特权的恶意尝试都会失败或提早标记。受信任的代理永远不会直接处理不受信任的原始数据,而只能与无法嵌入有害说明的消毒代理或参考资料一起使用。
llms以外的特权升级的其他上下文
尽管这里的重点是基于LLM的模型,但值得注意的是,在传统IT安全性中,特权升级是一个充分研究的问题,在传统的IT安全性中,攻击者利用软件漏洞来获得未经授权的访问或控制。常见的缓解策略包括:
- 严格的操作系统级沙箱和容器化。
- 最小特权访问控制和基于角色的权限。
- 全面的代码审查和安全的编码实践。
- 使用入侵预防系统(IPS)和自动化工具进行检测和阻塞。
这些原则补充,有时是基础的安全模型部署,尤其是当LLM与更广泛的系统基础架构集成时。
***
总而言之,通过双重代理体系结构和确定性护栏实施及时流动完整性的模型为在LLM环境中的基于工具的特权升级和未经授权的代码执行提供了最强大的当代保护。他们隔离不信任的输入,执行最少特权以及严格监控数据和控制流的方法可以实现快速缓解及时注入和升级攻击,超过了基于ML的基于ML或代理的隔离防御措施。