Quel modèle offre des protections plus fortes contre l'escalade ou l'exécution de code basée sur des outils

Les protections les plus fortes contre l'escalade des privilèges basées sur des outils ou les vulnérabilités d'exécution de code proviennent actuellement de conceptions d'agent sécurisées avancées dans les cadres de modèle de grande langue (LLM), en particulier ceux utilisant une architecture à double agent et des principes d'intégrité de flux d'invite (PFI). Ces modèles se distinguent par l'isolement du traitement de données de confiance et non fiable, de faire appliquer une séparation stricte des privilèges et de mettre en œuvre des garde-corps de sécurité déterministes pour empêcher l'injection rapide malveillante et un accès aux ressources non autorisé.

Principes de protection de base dans les modèles d'agent LLM sécurisés

Une percée clé dans l'atténuation des risques d'escalade chez les agents LLM est la division en deux agents intercommandés: un agent de confiance (avec des privilèges élevés) qui gère les données et les opérations sensibles ou fiables, et un agent non frappé (avec des privilèges restreints) qui traitent une entrée potentiellement utile ou non déformée. Cette isolation architecturale limite l'étendue de ce que les contributions malveillantes peuvent avoir un impact et applique le principe du moindre privilège en s'assurant que les pièces non fiables ne peuvent pas effectuer des opérations qui pourraient dégénérer leurs droits d'accès ou exécuter un code arbitraire.

Cadre d'intégrité de l'écoulement invite (PFI)

PFI est un cadre avancé conçu pour empêcher l'escalade des privilèges en gérant solidement le flux d'invites et de données de plugin dans un environnement d'agent LLM. Il offre un flux de travail où:

- L'agent de confiance reçoit les invites et les processus de confiance des utilisateurs.
- Les données non fiables détectées à partir de plugins ou de sources externes sont déchargées à l'agent non fiable.
- L'agent non fiable a des privilèges restreints et un accès limité à des outils ou des opérations sensibles.
- La communication entre les agents utilise des références de données codées plutôt que du contenu brut non fiduciaire, empêchant l'injection malveillante dans le contexte de l'agent de confiance.
- Les garde-corps surveillent le flux de données non fiables et d'instructions de contrôle, d'élever des alertes si des opérations dangereuses ou des tentatives d'escalade de privilèges non autorisées sont détectées, impliquant ainsi un consentement explicite de l'utilisateur ou des mécanismes de blocage automatisés.

Ces garde-corps, Dataguard et CtrlGuard, sont déterministes et évitent les faux positifs ou les manquements en appliquant les politiques de flux de données et de contrôle de contrôle basées sur un suivi strict des niveaux de privilège et de la fiabilité des données. Cette architecture réduit considérablement les risques d'exécuter des commandes ou du code malveillants dans l'environnement de l'agent.

Efficacité comparative de PFI sur les défenses précédentes

Avant les cadres comme PFI, les défenses communes reposaient fortement sur le réglage fin du modèle et l'apprentissage dans le contexte pour décourager la génération d'invite nocive ou l'exécution de commande. Bien que utiles, ces approches probabilistes étaient vulnérables au contournement. D'autres approches ont introduit des partitions de confiance / non fiables mais manquaient souvent de garde-corps déterministes, ce qui entraîne des garanties de sécurité incomplètes.

PFI améliore ces défenses en combinant:

- Classification de confiance des sources de données pour identifier le contenu non fiable.
- Séparation stricte des privilèges appliquée par plusieurs agents redirigés.
- Application de la politique de flux rapide avec des mécanismes de garde-corps formels.
- Alerte en temps réel et approbation des utilisateurs sur les flux suspects.

Les résultats des tests de référence montrent que PFI réduit considérablement l'escalade des privilèges et les taux de réussite d'attaque par injection rapide à près de zéro, surpassant de loin les systèmes antérieurs comme React Agent, IsoLategpt et F-Secure LLM, tout en conservant une convivialité opérationnelle plus élevée.

Comment ces protections atténuent les risques d'exécution de code

L'escalade basée sur les outils survient souvent lorsque l'entrée de l'attaquant trompe un agent LLM dans la délivrance de commandes de shell non autorisées ou l'exécution du code arbitraire. En isolant des entrées non fiables dans des environnements à faible primerie et en dépistant et en contrôlant rigoureusement les flux de données, ces modèles empêchent l'entrée de l'attaquant de corrompre le contexte d'exécution de l'agent de confiance ou d'élévation des privilèges.

De plus, comme les agents non fiables ont des plugins limités et aucun accès aux commandes système critiques ou aux API sensibles, toute tentative malveillante d'exécuter du code ou de dégénérer les privilèges échoue ou est signalée tôt. L'agent de confiance ne traite jamais directement les données brutes non fiables mais ne fonctionne qu'avec des proxys désinfectés ou des références qui ne peuvent pas intégrer des instructions nuisibles.

contexte supplémentaire sur l'escalade des privilèges au-delà des LLM

Bien que l'accent soit mis sur les modèles basés sur LLM, il convient de noter que l'escalade des privilèges est un problème bien étudié dans la sécurité informatique traditionnelle, où les attaquants exploitent les vulnérabilités logicielles pour obtenir un accès ou un contrôle non autorisé. Les stratégies d'atténuation courantes comprennent:

- Sandboxing et conteneurisation au niveau du système d'exploitation stricts.
- Contrôles d'accès aux moindres privilèges et autorisations basées sur les rôles.
- Revues de code complètes et pratiques de codage sécurisées.
- Utilisation de systèmes de prévention des intrusions (IPS) et d'outils automatisés pour la détection et le blocage.

Ces principes complètent et sous-tendent parfois les déploiements de modèles sécurisés, en particulier lorsque les LLM sont intégrées à une infrastructure système plus large.

***

En conclusion, les modèles implémentant l'intégrité du flux rapide avec des architectures à double agent et des garde-corps déterministes offrent les protections contemporaines les plus fortes contre l'escalade du privilège basé sur les outils et l'exécution du code non autorisée dans les environnements LLM. Leur approche pour isoler les entrées non fiables, appliquer le moins de privilèges et surveiller rigoureusement les données et les flux de contrôle permettent une atténuation presque complète des attaques d'injection et d'escalade rapides, dépassant les défenses antérieures à l'isolement ML ou à l'agent.