Welk model biedt een sterkere bescherming tegen op tools gebaseerde escalatie of code-uitvoering

De sterkste bescherming tegen op tools gebaseerde privilege-escalatie of code-uitvoering kwetsbaarheden komen momenteel afkomstig van geavanceerde beveiligde agentontwerpen in het grote talenmodel (LLM) frameworks, met name die met behulp van een dual-agent architectuur en prompt flow integriteit (PFI) principes. Deze modellen onderscheiden zich door de vertrouwde en niet -vertrouwde gegevensverwerking te isoleren, strikte scheiding van privileges af te dwingen en deterministische beveiligingsgeldrails te implementeren om kwaadaardige snelle injectie en ongeoorloofde toegang voor hulpbronnen te voorkomen.

Core Protection Principles in Secure LLM Agent -modellen

Een belangrijke doorbraak in verzachtende escalatierisico's bij LLM-agenten is de divisie in twee intercommunicerende agenten: een vertrouwde agent (met hoge privileges) die gevoelige of vertrouwde gegevens en bewerkingen verwerkt, en een niet-vertrouwde agent (met beperkte privileges) die potentieel onveilige of aanvaller-gecontroleerde input. Deze architecturale isolatie beperkt de reikwijdte van wat kwaadwillende input kan beïnvloeden en handhaaft het principe van het minste privilege door ervoor te zorgen dat niet -vertrouwde onderdelen geen operaties kunnen uitvoeren die hun toegangsrechten kunnen escaleren of willekeurige code kunnen uitvoeren.

Prompt Flow Integrity (PFI) framework

PFI is een geavanceerd framework dat is ontworpen om escalatie van privileges te voorkomen door de stroom van prompts en plug -ingegevens binnen een LLM -agentomgeving veilig te beheren. Het biedt een workflow waar:

- De vertrouwde agent ontvangt gebruikersprompts en verwerkt vertrouwde gegevens.
- Niet -vertrouwde gegevens die zijn gedetecteerd uit plug -ins of externe bronnen worden ontlaadt naar de niet -vertrouwde agent.
- De onbetrouwbare agent heeft beperkte privileges en beperkte toegang tot gevoelige gereedschap of bewerkingen.
- Communicatie tussen agenten maakt gebruik van gecodeerde gegevensverwijzingen in plaats van ruwe niet -vertrouwde inhoud, waardoor kwaadwillige injectie in de context van de vertrouwde agent wordt voorkomen.
- Boerrails bewaken de stroom van niet -vertrouwde gegevens en besturingsinstructies, waarbij waarschuwingen worden verhoogd als onveilige bewerkingen of ongeautoriseerde escalatiepogingen voor privileges worden gedetecteerd, waardoor expliciete gebruikersstaat of geautomatiseerde blokkeermechanismen betrokken zijn.

Deze vangrails, dataguard en Ctrlguard, zijn deterministisch en vermijden valse positieven of missers door gegevensstroom en controlestroombeleid af te dwingen op basis van strikte tracking van privilege niveaus en betrouwbaarheid van gegevens. Deze architectuur vermindert het risico op het uitvoeren van kwaadaardige opdrachten of code in de agentomgeving aanzienlijk.

Vergelijkende effectiviteit van PFI tijdens eerdere verdedigingen

Vóór frameworks zoals PFI waren gemeenschappelijke verdedigingen sterk afhankelijk van modelafstemming en in-context leren om schadelijke snelle generatie of commando-uitvoering te ontmoedigen. Hoewel nuttig, waren deze probabilistische benaderingen kwetsbaar voor bypass. Andere benaderingen introduceerden vertrouwde/onbetwiste partities, maar misten vaak deterministische vangrails, wat resulteerde in onvolledige beveiligingsgaranties.

PFI verbetert deze verdediging door te combineren:

- Vertrouwclassificatie van gegevensbronnen om niet -vertrouwde inhoud te identificeren.
- Strict Privilege -scheiding afgedwongen door meerdere omgeleide agenten.
- snelle handhaving van het stromingsbeleid met formele vangrailmechanismen.
- Real-time waarschuwing en gebruikersgoedkeuring op verdachte stromen.

Results from benchmark tests show PFI dramatically reduces privilege escalation and prompt injection attack success rates to near zero, far outperforming earlier systems like ReAct agent, IsolateGPT, and f-secure LLM, while maintaining higher operational usability.

hoe deze beschermingen de risico's van code -uitvoering verminderen

Op gereedschap gebaseerde escalatie ontstaat vaak wanneer aanvallerinvoer een LLM-agent truceert om niet-geautoriseerde shell-opdrachten uit te geven of willekeurige code uit te voeren. Door niet-vertrouwde inputs in omgevingen met lage privilege te isoleren en gegevensstromen rigoureus te screenen en te beheersen, voorkomen deze modellen dat aanvallerinvoer de uitvoeringscontext van de vertrouwde agent of het verhogen van privileges corrumpeert.

Aangezien niet -vertrouwde agenten beperkte plug -ins hebben en geen toegang hebben tot kritieke systeemopdrachten of gevoelige API's, mislukt elke kwaadaardige poging om code uit te voeren of escaleren voorrechten te falen of wordt vroeg gemarkeerd. De vertrouwde agent verwerkt nooit rechtstreeks onbetrouwbare onbewerkte gegevens, maar werkt alleen met gezegde proxy's of referenties die geen schadelijke instructies kunnen insluiten.

Aanvullende context over escalatie van privileges voorbij LLMS

Hoewel de focus hier ligt op op LLM gebaseerde modellen, is het vermeldenswaard dat escalatie van privileges een goed bestudeerd probleem is in de traditionele IT-beveiliging, waarbij aanvallers software kwetsbaarheden exploiteren om ongeoorloofde toegang of controle te krijgen. Gemeenschappelijke mitigatiestrategieën omvatten:

- Strikte sandboxing en containerisatie op besturingssysteemniveau.
- Minste privilege-toegangscontroles en op rollen gebaseerde machtigingen.
- Uitgebreide codebeoordelingen en beveiligde coderingspraktijken.
- Gebruik van inbraakpreventiesystemen (IP's) en geautomatiseerde tools voor detectie en blokkering.

Deze principes vullen zich aan en ondersteunen soms beveiligde modelimplementaties, vooral wanneer LLM's zijn geïntegreerd met een bredere systeeminfrastructuur.

***

Concluderend bieden modellen die snelle stroomintegriteit implementeren met dual-agent architecturen en deterministische vangrails de sterkste hedendaagse bescherming tegen escalatie op basis van tools gebaseerde privileges en ongeoorloofde code-uitvoering in LLM-omgevingen. Hun benadering van het isoleren van niet-vertrouwde inputs, het afdwingen van het minst privilege en het rigoureus bewaken van gegevens en controlestromen bereikt bijna volledig complete beperking van snelle injectie- en escalatieaanvallen, het overtreffen van eerdere op ML gebaseerde of agentisolatieafdempel.