Nejsilnější ochrana proti eskalaci nebo chybám provádění kódu založené na nástrojích v současné době pochází z pokročilých návrhů zabezpečených agentů v rámcích s velkým jazykovým modelem (LLM), zejména ty, které používají principy architektury s dvojím agentem a rychlým tokem (PFI). Tyto modely se odlišují izolací důvěryhodného a nedůvěryhodného zpracování dat, vynucováním přísného oddělení privilegií a implementací deterministických bezpečnostních zábradlí, aby se zabránilo škodlivým vstřikováním a neautorizovaným přístupem zdrojů.
Zásady ochrany základních v Secure LLM Agent Models
Klíčovým průlomem při zmírňování eskalačních rizik u agentů LLM je rozdělení na dva interní agenty: důvěryhodný agent (s vysokými privilegiami), který zpracovává citlivá nebo důvěryhodná data a operace, a nedůvěryhodné agent (s omezeným privilegií), které zpracovává potenciálně nedoručené nebo útočné vstupy. Tato architektonická izolace omezuje rozsah toho, co škodlivé vstup může ovlivnit, a vynucuje zásadu nejméně privilegia tím, že zajišťuje, že nedůvěryhodné části nemohou provádět operace, které by mohly eskalovat jejich přístupová práva nebo provádět libovolný kód.
Framework Integrity Flow Integrity (PFI)
PFI je pokročilý rámec navržený tak, aby zabránil eskalaci privilegií bezpečným řízením toku výzev a dat pluginu v prostředí agenta LLM. Nabízí pracovní postup, kde:
- Důvěryhodný agent přijímá uživatele a zpracovává důvěryhodná data.
- Nedůvěryhodné data detekovaná z pluginů nebo externích zdrojů jsou vyložena na nedůvěryhodné agent.
- Nedůvěryhodný agent omezil privilegia a omezený přístup k citlivým nástrojům nebo operacím.
- Komunikace mezi agenty používá spíše kódované odkazy na dat než surový nedůvěryhodný obsah, což zabraňuje škodlivé injekci do kontextu důvěryhodného agenta.
- Záruky sledují tok nedůvěryhodných pokynů pro kontrolu a zvyšují upozornění, pokud jsou detekovány nebezpečné operace nebo neoprávněné pokusy o eskalaci privilegií, a tak zahrnují explicitní souhlas uživatelů nebo automatizované blokování mechanismů.
Tyto zábradlí, Dataguard a CtrlGuard, jsou deterministické a vyhýbají se falešným pozitivům nebo chybějícím prosazováním zásad toku dat a kontrolních toků založených na přísném sledování úrovní privilegií a důvěryhodnosti dat. Tato architektura výrazně snižuje rizika provádění škodlivých příkazů nebo kódu v prostředí agenta.
Srovnávací účinnost PFI oproti předchozí obraně
Před rámci, jako je PFI, se běžné obrany těžce spoléhaly na model jemné doladění a učení v kontextu, aby odradily škodlivé generování nebo provádění příkazů. Přestože byly tyto pravděpodobnostní přístupy užitečné, byly zranitelné vůči obtoku. Jiné přístupy zavedly důvěryhodné/nedůvěryhodné oddíly, ale často postrádaly deterministické zábradlí, což mělo za následek neúplné bezpečnostní záruky.
PFI zvyšuje tyto obrany kombinací:
- Klasifikace zdrojů dat důvěry za účelem identifikace nedůvěryhodného obsahu.
- Přísné separaci privilegií vynucené prostřednictvím více přesměrovaných agentů.
- Vynucování zásad toku s formálními mechanismy zábradlí.
- Varování a schválení uživatelů v reálném čase na podezřelých tocích.
Výsledky z benchmarkových testů ukazují, že PFI dramaticky snižuje eskalaci privilegií a rychlého úspěchu vstřikování na téměř nulu, daleko překonává dřívější systémy, jako je React Agent, Isolategpt a F-Secure LLM, při zachování vyšší provozní použitelnosti.
Jak tyto ochrany zmírňují rizika provádění kódu
Eskalace založená na nástrojích často nastává, když vstup útočníka podvádí agenta LLM do vydávání neautorizovaných příkazů Shell nebo provedení libovolného kódu. Izolací nedůvěryhodných vstupů v prostředích s nízkým oprávněním a přísným screeningem a kontrolou datových toků zabraňují těmto modelům vstup útočníka zkorumpování kontextu provádění důvěryhodného agenta nebo zvyšování privilegií.
Navíc, protože nedůvěryhodné agenti mají omezené pluginy a žádný přístup k příkazům kritických systémů nebo citlivým API, jakýkoli škodlivý pokus o provedení kódu nebo eskalace oprávnění selže nebo je včas označen. Důvěryhodný agent nikdy přímo nezpracovává nedůvěryhodné newody, ale pracuje pouze s dezinfikovanými proxy nebo odkazy, které nemohou vložit škodlivé pokyny.
Další kontext o eskalaci privilegií za LLMS
I když je zde kladen důraz na modely založené na LLM, stojí za zmínku, že eskalace privilegií je dobře studovaným problémem v tradiční IT bezpečnosti, kde útočníci využívají zranitelnosti softwaru, aby získali neoprávněný přístup nebo kontrolu. Mezi běžné strategie zmírňování patří:
- Přísné karantény a kontejnerizace na úrovni operačního systému.
- Nejméně oprávnění řízení přístupu a oprávnění založená na rolích.
- Komplexní kontroly kódu a zabezpečené postupy kódování.
- Použití systémů prevence narušení (IPS) a automatizovaných nástrojů pro detekci a blokování.
Tyto principy doplňují a někdy podporují zabezpečené nasazení modelu, zejména pokud jsou LLM integrovány do širší systémové infrastruktury.
***
Závěrem lze říci, že modely implementující integritu rychlého toku s architekturami s dvojím agentem a deterministickými zábradlími nabízejí nejsilnější současnou ochranu před eskalací privilegií založených na nástrojích a neautorizované provádění kódu v prostředí LLM. Jejich přístup k izolaci nedůvěryhodných vstupů, prosazování nejmenších privilegií a přísného monitorování dat a kontrolních toků dosahuje téměř dokončeného zmírnění rychlých injekčních a eskalačních útoků a překonává předchozí obranu izolace založených na ML nebo agentuře.