Qual modelo oferece proteções mais fortes contra escalada baseada em ferramentas ou execução de código

As proteções mais fortes contra a escalada de privilégios baseadas em ferramentas ou vulnerabilidades de execução de código atualmente vêm de projetos avançados de agentes seguros em estruturas de modelo de idioma de grande linguagem (LLM), particularmente aqueles que usam uma arquitetura de agente duplo e princípios de integridade de fluxo (PFI). Esses modelos se distinguem isolando o processamento de dados confiáveis e não confiáveis, aplicando a separação estrita de privilégios e implementando corrimãos determinísticos de segurança para evitar injeção imediata maliciosa e acesso a recursos não autorizados.

Princípios de proteção do núcleo em modelos de agente seguro LLM

Um avanço importante na mitigação de riscos de escalação nos agentes LLM é a divisão em dois agentes intercomunicantes: um agente de confiança (com altos privilégios) que lida com dados e operações sensíveis ou confiáveis e um agente não confiável (com privilégios restritos) que processa potencialmente inseguros ou controladores de assinatura. Esse isolamento arquitetônico limita o escopo do que a entrada maliciosa pode impactar e aplicar o princípio do menor privilégio, garantindo que partes não confiáveis não possam executar operações que possam escalar seus direitos de acesso ou executar o código arbitrário.

Estrutura de integridade de fluxo imediato (PFI)

O PFI é uma estrutura avançada projetada para evitar a escalada de privilégios, gerenciando com segurança o fluxo de instruções e dados de plug -in em um ambiente de agente LLM. Oferece um fluxo de trabalho onde:

- O agente confiável recebe avisos do usuário e processam dados confiáveis.
- Dados não confiáveis detectados a partir de plugins ou fontes externas são descarregadas para o agente não confiável.
- O agente não confiável tem privilégios restritos e acesso limitado a ferramentas ou operações confidenciais.
- A comunicação entre agentes usa referências de dados codificadas em vez de conteúdo não confiável, impedindo a injeção maliciosa no contexto do agente confiável.
- Os protetores de proteção monitoram o fluxo de dados e instruções de controle não confiáveis, levantando alertas se forem detectadas operações inseguras ou tentativas de escalada de privilégio não autorizadas, envolvendo o consentimento explícito do usuário ou mecanismos de bloqueio automatizados.

Esses corrimãos, DataGuard e Ctrlguard, são determinísticos e evitam falsos positivos ou erros, aplicando políticas de fluxo de dados e controle com base no rastreamento rigoroso dos níveis de privilégio e na confiabilidade de dados. Essa arquitetura reduz bastante os riscos de executar comandos ou código maliciosos no ambiente do agente.

Eficácia comparativa de PFI em defesas anteriores

Antes de estruturas como o PFI, as defesas comuns dependiam muito do modelo de ajuste fino e aprendizado no contexto para desencorajar a geração promissora prejudicial ou a execução de comando. Embora úteis, essas abordagens probabilísticas eram vulneráveis ao desvio. Outras abordagens introduziram partições confiáveis/não confiáveis, mas muitas vezes careciam de corrimões determinísticos, resultando em garantias de segurança incompletas.

O PFI aprimora essas defesas combinando:

- Classificação de confiança das fontes de dados para identificar conteúdo não confiável.
- Separação estrita de privilégio imposta por vários agentes redirecionados.
- Aplicação de políticas de fluxo imediato com mecanismos formais de corrimão.
- alerta em tempo real e aprovação do usuário em fluxos suspeitos.

Os resultados de testes de referência mostram que a PFI reduz drasticamente a escalada de privilégios e pronta as taxas de sucesso de ataque de injeção para quase zero, superando de longe sistemas anteriores, como agente React, Isolateppt e F-Secure LLM, mantendo a maior utilização operacional.

Como essas proteções mitigam os riscos de execução do código

A escalada baseada em ferramentas geralmente surge quando o invasor de inserção traz um agente LLM para a emissão de comandos de shell não autorizados ou executando o código arbitrário. Ao isolar entradas não confiáveis em ambientes de baixa privilégio e rigorosamente rigorosamente fluxos de dados, esses modelos impedem a entrada de invasores de corromper o contexto de execução do agente confiável ou elevar privilégios.

Além disso, como os agentes não confiáveis possuem plug -ins limitados e sem acesso a comandos críticos do sistema ou APIs sensíveis, qualquer tentativa maliciosa de executar código ou escalar privilégios falhas ou é sinalizada mais cedo. O agente confiável nunca processa diretamente dados brutos não confiáveis, mas trabalha apenas com proxies ou referências higienizadas que não podem incorporar instruções prejudiciais.

Contexto adicional sobre escalada de privilégios além do LLMS

Embora o foco aqui esteja nos modelos baseados em LLM, vale a pena notar que a escalada de privilégios é um problema bem estudado na segurança tradicional de TI, onde os invasores exploram vulnerabilidades de software para obter acesso ou controle não autorizado. As estratégias de mitigação comuns incluem:

- Sandboxing e contêiner de nível operacional rigoroso.
- Menos controles de acesso ao privilégio e permissões baseadas em funções.
- Revisões abrangentes de código e práticas seguras de codificação.
- Uso de sistemas de prevenção de intrusões (IPS) e ferramentas automatizadas para detecção e bloqueio.

Esses princípios complementam e às vezes sustentam as implantações de modelo seguro, especialmente quando os LLMs são integrados à infraestrutura mais ampla do sistema.

***

Em conclusão, os modelos que implementam a integridade imediata de fluxo com arquiteturas de agentes duplos e corrimãos determinísticos oferecem as proteções contemporâneas mais fortes contra a escalada de privilégios baseados em ferramentas e a execução de código não autorizada em ambientes LLM. Sua abordagem para isolar os insumos não confiáveis, aplicar menos privilégios e monitorar rigorosamente os fluxos de dados e controle atinge a mitigação quase completa dos ataques imediatos de injeção e escalação, superando as defesas anteriores de isolamento de ML ou de isolamento de agentes.