Qué modelo ofrece protecciones más fuertes contra la escalada basada en herramientas o la ejecución de código

Las protecciones más sólidas contra la escalada de privilegios basadas en herramientas o las vulnerabilidades de ejecución de código actualmente provienen de diseños de agentes seguros avanzados en marcos de modelos de lenguaje grande (LLM), particularmente aquellos que usan una arquitectura de agente de doble agente y principios de integridad de flujo rápido (PFI). Estos modelos se distinguen aislando el procesamiento de datos confiable y no confiable, aplicando una separación de privilegios estricto e implementando barandillas de seguridad deterministas para evitar la inyección de inmediato maliciosa y el acceso a los recursos no autorizados.

Principios de protección del núcleo en modelos de agentes seguros de LLM

Un avance clave para mitigar los riesgos de escalada en los agentes de LLM es la división en dos agentes intercomunicadores: un agente de confianza (con altos privilegios) que maneja datos y operaciones confidenciales o confiables, y un agente no confiable (con privilegios restringidos) que procesa una entrada potencialmente inseguras o atacadas con atacantes. Este aislamiento arquitectónico limita el alcance de lo que la entrada maliciosa puede afectar y hacer cumplir el principio de menor privilegio asegurando que las piezas no confiables no puedan realizar operaciones que puedan aumentar sus derechos de acceso o ejecutar código arbitrario.

Marco de integridad de flujo de inmediato (PFI)

PFI es un marco avanzado diseñado para evitar la escalada de privilegios al administrar de forma segura el flujo de indicaciones y datos de complementos dentro de un entorno de agente LLM. Ofrece un flujo de trabajo donde:

- El agente de confianza recibe indicaciones del usuario y procesa datos de confianza.
- Untrusted data detected from plugins or external sources is offloaded to the untrusted agent.
- El agente no confiable tiene privilegios restringidos y acceso limitado a herramientas u operaciones confidenciales.
- La comunicación entre los agentes utiliza referencias de datos codificadas en lugar de contenido sin confianza sin confianza, evitando la inyección maliciosa en el contexto del agente confiable.
- Las barandillas monitorean el flujo de datos no confiables y instrucciones de control, aumentando alertas si se detectan operaciones inseguras o intentos de escalada de privilegios no autorizados, lo que implica consentimiento explícito de los usuarios o mecanismos de bloqueo automatizados.

Estas barandillas, Dataguard y CtrlGuard, son deterministas y evitan falsos positivos o fallas al hacer cumplir las políticas de flujo de datos y controlar el flujo basados en el seguimiento estricto de los niveles de privilegios y la confiabilidad de los datos. Esta arquitectura reduce en gran medida los riesgos de ejecutar comandos o código maliciosos dentro del entorno del agente.

Efectividad comparativa de PFI sobre defensas anteriores

Antes de marcos como PFI, las defensas comunes se basaban en gran medida en el ajuste del modelo y el aprendizaje en contexto para desalentar la generación dañina o ejecución de comandos. While helpful, these probabilistic approaches were vulnerable to bypass. Otros enfoques introdujeron particiones confiables/no confiables, pero a menudo carecían de barandillas deterministas, lo que resultó en garantías de seguridad incompletas.

PFI mejora estas defensas combinando:

- Clasificación de confianza de fuentes de datos para identificar contenido no confiable.
- Se separó la separación de privilegios estrictos a través de múltiples agentes redirigidos.
- Control de política de flujo rápido con mecanismos formales de barandilla.
- Alerta en tiempo real y aprobación del usuario sobre flujos sospechosos.

Los resultados de las pruebas de referencia muestran que PFI reduce drásticamente la escalada de privilegios y las tasas de éxito de ataque de inyección inmediata a casi cero, superando mucho los sistemas anteriores como React Agent, Isolategpt y F-Secure LLM, al tiempo que mantiene una mayor usabilidad operativa.

Cómo estas protecciones mitigan los riesgos de ejecución del código

La escalada basada en herramientas a menudo surge cuando la entrada del atacante engaña a un agente de LLM para emitir comandos de shell no autorizados o ejecutar código arbitrario. Al aislar las entradas no confiables en entornos de bajo privilegio y detectar y controlar rigurosamente los flujos de datos, estos modelos evitan que las aportes de los atacantes corrompieran el contexto de ejecución del agente confiable o la elevación de los privilegios.

Además, dado que los agentes no confiables tienen complementos limitados y no hay acceso a comandos críticos del sistema o API sensibles, cualquier intento malicioso de ejecutar código o privilegios intensos falla o se marcan temprano. El agente de confianza nunca procesa directamente los datos sin confianza no confiables, pero solo funciona con proxies desinfectados o referencias que no pueden incrustar instrucciones dañinas.

Contexto adicional sobre la escalada de privilegios más allá de LLMS

Si bien el enfoque aquí está en los modelos basados en LLM, vale la pena señalar que la escalada de privilegios es un problema bien estudiado en la seguridad de TI tradicional, donde los atacantes explotan las vulnerabilidades de software para obtener acceso o control no autorizados. Las estrategias de mitigación comunes incluyen:

- Sandboxing y contenedorización estrictos a nivel operativo.
- Controles de acceso de menor privilegio y permisos basados en roles.
- Revisiones integrales de código y prácticas de codificación seguras.
- Uso de sistemas de prevención de intrusos (IPS) y herramientas automatizadas para detección y bloqueo.

Estos principios complementan y, a veces, sustentan las implementaciones de modelo seguras, especialmente cuando los LLM se integran con una infraestructura de sistema más amplia.

***

En conclusión, los modelos que implementan la integridad del flujo rápido con arquitecturas de doble agente y barandas deterministas ofrecen las protecciones contemporáneas más fuertes contra la escalada de privilegios basadas en herramientas y la ejecución de código no autorizado en entornos LLM. Su enfoque para aislar las entradas no confiables, hacer cumplir el menor privilegio y monitorear rigurosamente los datos y los flujos de control alcanza la mitigación casi completa de los ataques de inyección y escalada rápida, superando las defensas de agentes o aislaciones basadas en ML previas o agentes.