Ktorý model ponúka silnejšiu ochranu pred eskaláciou založenou na nástrojoch alebo vykonávaniu kódu

Najsilnejšia ochrana pred privilégiámi založenými na nástrojoch alebo zraniteľnostiach vykonávania kódu v súčasnosti pochádza z pokročilých návrhov zabezpečených agentov v rámci veľkých jazykových modelov (LLM), najmä tých, ktoré používajú architektúru duálnej agentúry a rýchle integrity toku (PFI). Tieto modely sa rozlišujú izoláciou dôveryhodných a nedôveryhodných spracovaní údajov, presadzovaním prísneho oddelenia privilégií a implementáciou deterministických bezpečnostných zábradlí, aby sa zabránilo škodlivému injekcii a neoprávnenému prístupu zdrojov.

Základné zásady ochrany v bezpečných modeloch agentov LLM

Kľúčovým prielomom pri zmierňovaní eskalačných rizík v agentoch LLM je rozdelenie do dvoch medzikomunikáčných agentov: dôveryhodný agent (s vysokými privilégiami), ktorý spracováva citlivé alebo dôveryhodné údaje a operácie, a neveriaci agent (s obmedzenými privilégiami), ktorý spracováva potenciálne nebezpečné alebo kontrolované vstupy. Táto architektonická izolácia obmedzuje rozsah toho, aký škodlivý vstup môže ovplyvniť a presadzovať zásadu najmenších privilégií zabezpečením, že nedôveryhodné časti nemôžu vykonávať operácie, ktoré by mohli eskalovať ich prístupové práva alebo vykonávať ľubovoľný zákonník.

Prompl Flow Integrity (PFI) Framework

PFI je pokročilý rámec určený na zabránenie eskalácii privilégií bezpečným riadením toku výziev a údajov doplnkov v prostredí agenta LLM. Ponúka pracovný postup kde:

- Dôveryhodný agent prijíma výzvy používateľa a procesy dôveryhodných údajov.
- Nedovovské údaje detegované z doplnkov alebo externých zdrojov sú vyložené do nedôveryhodného agenta.
- Dôveryhodný agent má obmedzené privilégiá a obmedzený prístup k citlivým nástrojom alebo operáciám.
- Komunikácia medzi agentmi využíva kódované údaje skôr ako surový nedôverovaný obsah, čím sa bráni škodlivej injekcii do kontextu dôveryhodného agenta.
- Zhadzované monitory monitorujú tok nedôverovaných údajov a riadiacich pokynov, zvyšujú výstrahy, ak sú zistené nebezpečné operácie alebo neoprávnené pokusy o eskaláciu privilégií, čo zahŕňa explicitný súhlas používateľa alebo automatizované mechanizmy blokovania.

Tieto zábradlie, DatagUard a Ctrlguard, sú deterministické a vyhýbajú sa falošným pozitívam alebo zmeškaniu presadzovaním politík toku údajov a riadenia toku založených na prísnom sledovaní úrovní privilégií a dôveryhodnosti údajov. Táto architektúra výrazne znižuje riziko vykonávania škodlivých príkazov alebo kódu v prostredí agenta.

Porovnávacia účinnosť PFI pred predchádzajúcimi obranami

Pred rámcami, ako je PFI, sa spoločné obrany vo veľkej miere spoliehali na doladenie modelu a učenie sa v kontexte, aby sa odradili škodlivé generovanie alebo vykonanie príkazov. Aj keď sú tieto pravdepodobnostné prístupy užitočné, boli náchylné na obchádzanie. Ďalšie prístupy zaviedli dôveryhodné/nedôveryhodné oddiely, ale často im chýbali deterministické zábradlie, čo malo za následok neúplné bezpečnostné záruky.

PFI tieto obrany zvyšuje kombináciou:

- Dôverujte klasifikáciou zdrojov údajov na identifikáciu nedôveryhodného obsahu.
- Prísne oddelenie privilégií vynútených prostredníctvom viacerých presmerovaných agentov.
- Prám presadzovanie politiky toku s formálnymi mechanizmami zábradlia.
- Varovanie v reálnom čase a súhlas používateľov na podozrivé toky.

Výsledky z referenčných testov ukazujú, že PFI dramaticky znižuje eskaláciu privilégií a rýchle miery úspešnosti injekčného útoku na takmer nulu, ďaleko prekonáva predchádzajúce systémy, ako sú agent React, ISOLategpt a F-Secure LLM, pričom si zachováva vyššiu prevádzkovú použiteľnosť.

Ako tieto ochrany zmierňujú riziká vykonávania kódu

Eskalácia založená na nástrojoch často vzniká, keď útočník vstupuje, že agent LLM pri vydávaní neoprávnených príkazov Shell alebo vykonávajúcich ľubovoľný kód. Izoláciou nedôveryhodných vstupov v prostrediach s nízkymi privilegami a dôsledným skríningom a riadením tokov dátových tokov bránia vstupu útočníkov v poškodení kontextu dôveryhodného spustenia agenta alebo zvýšeniu privilégií.

Okrem toho, keďže nedôveryhodní agenti majú obmedzené doplnky a žiadny prístup k kritickým príkazom systému alebo citlivým rozhraním API, akýkoľvek škodlivý pokus o vykonanie kódu alebo eskalácie privilégií zlyhá alebo je predčasne označený. Dôveryhodný agent nikdy priamo nespracováva nedôveryhodné surové údaje, ale pracuje iba so dezinfikovanými proxymi alebo odkazmi, ktoré nemôžu vložiť škodlivé pokyny.

Dodatočný kontext o eskalácii privilégií nad rámec LLMS

Aj keď sa tu zameriava na modely založené na LLM, je potrebné poznamenať, že eskalácia privilégií je dobre študovaným problémom v tradičnej bezpečnosti IT, kde útočníci využívajú zraniteľné miesta softvéru na získanie neoprávneného prístupu alebo kontroly. Bežné stratégie na zmiernenie zahŕňajú:

- prísne operačný systém na úrovni pieskoviska a kontajnerovanie.
- Najmenšie ovládacie prvky privilégiá a povolenia založené na rolách.
- Komplexné kontroly kódu a bezpečné postupy kódovania.
- Použitie systémov prevencie vniknutia (IPS) a automatizovaných nástrojov na detekciu a blokovanie.

Tieto zásady dopĺňajú a niekedy sú základom zabezpečeného nasadenia modelu, najmä ak sú LLM integrované do širšej systémovej infraštruktúry.

***

Záverom možno povedať, že modely implementujúce rýchlu integritu toku s architektúrami duálnych agentov a deterministické zábradlie ponúkajú najsilnejšiu súčasnú ochranu pred eskaláciou privilégií založených na nástrojoch a neoprávneného vykonávania kódu v prostrediach LLM. Ich prístup k izolácii nedôveryhodných vstupov, presadzovanie najmenších privilégií a dôsledné monitorovanie údajov a kontrolných tokov dosahuje takmer úplné zmiernenie okamžitých injekčných a eskalačných útokov, čím prekoná predchádzajúce obrany založené na ML alebo izolácii agenta.