Najmočnejša zaščita pred eskalacijo privilegiranja na osnovi orodij ali ranljivosti za izvajanje kode trenutno izvirajo iz naprednih varnostnih modelov v okviru velikega jezikovnega modela (LLM), zlasti tistih, ki uporabljajo načela dvojne arhitekture in hitrega pretoka (PFI). Ti modeli se ločijo z izolacijo zaupanja vredne in nezaupljive obdelave podatkov, uveljavljanjem strogega ločevanja privilegijev in izvajanjem determiniranih varnostnih zaščitnih zaščit, da se prepreči zlonamerna hitro injiciranje in nepooblaščen dostop do virov.
Načela jedrne zaščite v varnih modelih agentov LLM
Ključni preboj pri zmanjševanju tveganj stopnjevanja pri agentih LLM je delitev v dva medsebojno-komunikacijska agenta: zaupanja vredno agent (z visokimi privilegiji), ki obravnava občutljive ali zaupanja vredne podatke, ter nezaupljivo agent (z omejenimi privilegiji), ki obdeluje potencialno nevarno ali napadalce. Ta arhitekturna izolacija omejuje obseg tega, kar lahko zlonamerni vložek vpliva in uveljavlja načelo najmanj privilegij, tako da zagotovi, da nezaupljivi deli ne morejo izvajati operacij, ki bi lahko stopnjevale njihove pravice dostopa ali izvedli poljubno kodo.
Okvir za celovitost pretoka (PFI)
PFI je napreden okvir, namenjen preprečevanju stopnjevanja privilegijev z varno upravljanjem pretoka pozivov in podatkov vtičnikov v okolju agentov LLM. Ponuja delovni potek, kjer:
- Zaupanja vreden agent prejme uporabniške pozive in obdela zaupanja vredne podatke.
- Neizpolnjeni podatki, odkriti iz vtičnikov ali zunanjih virov, so naloženi nezaupljivemu agentu.
- Neupuščeni agent ima omejene privilegije in omejen dostop do občutljivega orodja ali operacij.
- Komunikacija med agenti uporablja kodirane reference podatkov in ne surove nezaupljive vsebine, kar preprečuje zlonamerno injiciranje v kontekst zaupanja vrednega agenta.
- Gurnirji spremljajo pretok nezaupljivih podatkov in navodil za nadzor, če se odkrijejo opozorila, če se odkrijejo nevarne operacije ali nepooblaščeni poskusi stopnjevanja privilegij, kar vključuje izrecno uporabniško soglasje ali avtomatizirane mehanizme blokiranja.
Ti varovanji, DataGuard in CtrlGuard, so determinirani in se izogibajo lažnim pozitivnim ali manjkanjem z uveljavljanjem politik pretoka podatkov in nadzora pretoka, ki temeljijo na strogi sledenju ravni privilegijev in zaupanja. Ta arhitektura močno zmanjša tveganja za izvajanje zlonamernih ukazov ali kode v okolju agentov.
Primerjalna učinkovitost PFI nad prejšnjo obrambo
Pred okviri, kot je PFI, so se skupna obramba močno opirala na natančno nastavitev modela in učenje v kontekstu, da bi odvrnili škodljivo hitre generacije ali izvajanje ukazov. Medtem ko so bili koristni, so bili ti verjetnostni pristopi ranljivi za obhod. Drugi pristopi so uvedli zaupanja vredne/nezaupljive particije, vendar jih pogosto nimajo determiniranih varovanj, kar je povzročilo nepopolne varnostne garancije.
PFI poveča te obrambe s kombiniranjem:
- Zaupanje klasifikacije virov podatkov za prepoznavanje nezaupljive vsebine.
- Stroga ločitev privilegij, ki se uveljavlja z več preusmerjenimi agenti.
- Hitro izvrševanje politike pretoka s formalnimi mehanizmi varovanja.
- Opozorilo v realnem času in odobritev uporabnikov na sumljivih tokovih.
Rezultati primerjalnih testov kažejo, da PFI dramatično zmanjša stopnjevanje privilegiranja in hitro stopnjo uspeha napadov vbrizgavanja na skoraj nič, kar je daleč presegalo prejšnje sisteme, kot so reakt agent, izolategpt in f-secure LLM, hkrati pa ohranja večjo operativno uporabnost.
Kako ta zaščita ublaži tveganje za izvajanje kode
Eskalacija, ki temelji na orodju, se pogosto pojavi, ko napadalca vpiše vnos agenta LLM v izdajo nepooblaščenih ukazov lupine ali izvajanje poljubne kode. Z izolacijo nezaupljivih vhodov v okolju z nizkim privilegijem in strogo pregledovanjem in nadzorom podatkovnih tokov preprečujejo, da bi vnos napadalcev poškodoval kontekst izvajanja zaupanja vrednega agenta ali dvignil privilegije.
Poleg tega, ker imajo nezaupljivi agenti omejene vtičnike in nimajo dostopa do kritičnih sistemskih ukazov ali občutljivih API -jev, vsak zlonamerni poskus izvajanja kode ali stopnjevanja privilegijev ne uspe ali je predčasno označen. Zaupanja vredni agent nikoli neposredno obdeluje nezaupljive surove podatke, ampak deluje le s saniranimi pooblastili ali referencami, ki ne morejo vgraditi škodljivih navodil.
Dodatni kontekst o eskalaciji privilegij onkraj LLMS
Medtem ko se osredotoča na modele, ki temeljijo na LLM, je treba opozoriti, da je eskalacija privilegijev dobro preučena težava pri tradicionalni varnosti IT, kjer napadalci izkoriščajo ranljivosti programske opreme za pridobitev nepooblaščenega dostopa ali nadzora. Skupne strategije za ublažitev vključujejo:
- Stroga peska in zabojništvo na ravni operacijskega sistema.
- Najmanj privilegirani nadzor dostopa in dovoljenja, ki temeljijo na vlogah.
- Obsežne preglede kode in varne prakse kodiranja.
- Uporaba sistemov za preprečevanje vdorov (IPS) in avtomatizirana orodja za odkrivanje in blokiranje.
Ta načela dopolnjujejo in včasih temeljijo na varnih uvajanju modela, zlasti kadar so LLM integrirani s širšo sistemsko infrastrukturo.
***
Za zaključek modeli, ki izvajajo hitro celovitost pretoka z dvojnimi agencijskimi arhitekturami in determinističnimi varovanji, nudijo najmočnejše sodobne zaščite pred eskalacijo privilegiranja na osnovi orodij in nepooblaščeno izvajanje kode v okoljih LLM. Njihov pristop k izoliranju nezaupljivih vhodov, uveljavljanje najmanj privilegij in strogo spremljanje podatkov in kontrolnih tokov dosega skoraj popolno ublažitev hitrih injiciranja in eskalacijskih napadov, ki presega predhodno obrambo izolacije na osnovi ML ali agenta.