Kuris modelis siūlo stipresnę apsaugą nuo įrankių pagrįsto eskalavimo ar kodo vykdymo

Stipriausios apsaugos nuo įrankių pagrįstų privilegijų eskalavimo ar kodo vykdymo pažeidžiamumų šiuo metu kyla iš pažangių saugių agentų dizaino didelės kalbos modelio (LLM) rėmų, ypač tų, kurie naudoja dviejų agentų architektūrą ir greito srauto vientisumo (PFI) principus. Šie modeliai išskiria save izoliuodami patikimus ir nepatikimus duomenų apdorojimą, vykdydami griežtą privilegijų atskyrimą ir įgyvendindami deterministinius apsaugos apsaugos apsaugos priemones, kad būtų išvengta piktybiškų greitų injekcijų ir neleistinos prieigos prie išteklių.

Pagrindiniai apsaugos principai saugiuose LLM agentų modeliuose

Pagrindinis LLM agentų sušvelninimo lūžis LLM agentų eskalavimo riziką yra padalijimas į du tarpkomunikacijų agentus: patikimą agentą (su didelėmis privilegijomis), kuriais tvarko neskelbtinus ar patikimus duomenis ir operacijas, ir nepatikėtą agentą (su ribotomis privilegijomis), kuris apdoroja potencialiai nesaugius ar užpuoliko kontroliuojamą įvestį. Ši architektūrinė izoliacija riboja, kokią kenkėjišką įvestį gali paveikti ir įgyvendinti mažiausio privilegijos principą, užtikrinant, kad nepatikimos dalys negalėtų atlikti operacijų, kurios galėtų padidinti jų prieigos teises ar vykdyti savavališką kodą.

„Relly Flow Integrity“ (PFI) sistema

PFI yra patobulinta sistema, skirta užkirsti kelią privilegijų eskalavimui, saugiai valdant raginimų ir papildinių duomenų srautą LLM agento aplinkoje. Tai siūlo darbo eigą, kur:

- Patikimas agentas gauna vartotojų raginimus ir apdoroja patikimus duomenis.
- Nepasitikėti duomenys, aptikti iš papildinių ar išorinių šaltinių, yra perkelti į nepatikimą agentą.
- Nepasitikėjęs agentas turi ribotas privilegijas ir ribotą prieigą prie jautrių įrankių ar operacijų.
- Ryšys tarp agentų naudoja užkoduotas duomenų nuorodas, o ne neapdorotą nepatikimą turinį, užkirsdamas kelią kenkėjiškoms injekcijoms į patikimo agento kontekstą.
- Guebeliai Stebi nepatikimų duomenų ir valdymo instrukcijų srautą, kyla įspėjimų, jei aptinkami nesaugios operacijos ar neteisėtos privilegijos eskalavimo bandymai, taigi apima aiškų vartotojo sutikimą ar automatinius blokavimo mechanizmus.

Šie apsauginiai turėklai, „Dataguard“ ir „CtrlGuard“, yra determinuoti ir išvengia klaidingų teigiamų ar praleistų dalykų, vykdydami duomenų srauto ir kontrolės srauto politiką, pagrįstą griežtu privilegijų lygio ir duomenų patikimumo stebėjimu. Ši architektūra labai sumažina kenkėjiškų komandų ar kodo vykdymo riziką agento aplinkoje.

lyginamasis PFI efektyvumas, palyginti su ankstesnėmis gynybomis

Prieš tokius rėmus kaip PFI, bendroji gynyba labai rėmėsi modelio derinimu ir kontekstu mokymuisi atgrasyti nuo kenksmingos greitos kartos ar komandų vykdymo. Nors šie tikimybiniai požiūriai buvo naudingi, buvo pažeidžiami aplinkkelio. Kiti požiūriai pristatė patikimus/nepatikimus pertvaras, tačiau dažnai trūko deterministinių apsauginių turėklų, dėl kurių suteikiama nepilnos saugumo garantijos.

PFI sustiprina šias gynybas derinant:

- Pasitikėkite duomenų šaltinių klasifikacija, kad nustatytumėte nepatikimą turinį.
- Griežtas privilegijų atskyrimas, vykdomas per kelis nukreiptus agentus.
- Greitas srauto politikos vykdymas naudojant oficialius apsauginių turėklų mechanizmus.
- Įtartinų srautų įspėjimas realiu laiku ir vartotojo patvirtinimas.

Rezultatai dėl etaloninių testų rodo, kad PFI dramatiškai sumažina privilegijų eskalavimo ir greito įpurškimo atakos sėkmės procentus iki beveik nulio, žymiai pralenkdamos ankstesnes sistemas, tokias kaip „React Agent“, „ISolationAgpt“ ir „F-Secure LLM“, išlaikant didesnį veiklos naudojimą.

Kaip šios apsaugos sušvelnina kodo vykdymo riziką

Įrankių eskalavimas dažnai atsiranda, kai užpuolikas įvestas apgaudinėja LLM agentą, kad išduotų neteisėtas apvalkalo komandas arba vykdo savavališką kodą. Izoliuodami nepatikimus įvestis mažai privilegijuotoje aplinkoje ir griežtai tikrinant ir kontroliuojant duomenų srautus, šie modeliai neleidžia užpuoliko įvestiems sugadinti patikimo agento vykdymo konteksto ar padidinančių privilegijų.

Be to, kadangi nepatikimi agentai turi ribotus papildinius ir neturi prieigos prie kritinės sistemos komandų ar jautrių API, bet koks kenkėjiškas bandymas vykdyti kodą ar padidinti privilegijas sugenda arba yra pažymėta anksti. Patikimas agentas niekada tiesiogiai neapdoroja nepatikimų neapdorotų duomenų, o veikia tik su dezinfekuotais tarpiniuose ar nuorodose, kurios negali įterpti kenksmingų instrukcijų.

Papildomas privilegijų eskalacijos kontekstas už LLMS ribų

Nors pagrindinis dėmesys skiriamas LLM pagrįstiems modeliams, verta paminėti, kad privilegijų eskalavimas yra gerai ištirta tradicinio IT saugumo problema, kai užpuolikai naudoja programinės įrangos pažeidžiamumą, kad įgytų neteisėtą prieigą ar valdymą. Įprastos švelninimo strategijos apima:

- Griežtas operacinės sistemos lygio smėlio dėžė ir konteineriai.
- Mažiausiai privilegijuotų prieigos kontrolės ir vaidmenims pagrįsti leidimai.
- Išsamios kodo apžvalgos ir saugi kodavimo praktika.
- Įsibrovimo prevencijos sistemų (IPS) ir automatinių įrankių naudojimas aptikti ir blokuoti.

Šie principai papildo ir kartais grindžiamas saugiu modelio diegimu, ypač kai LLM yra integruoti su platesne sistemos infrastruktūra.

***

Apibendrinant galima pasakyti, kad modeliai, įgyvendinantys greitą srauto vientisumą su dvejopų agentų architektūromis ir deterministiniais apsauginiais turėklais, siūlo stipriausią šiuolaikinę apsaugą nuo įrankių pagrįstų privilegijų eskalavimo ir neteisėto kodo vykdymo LLM aplinkoje. Jų požiūris į nepatikimų sąnaudų izoliavimą, mažiausiai privilegijuotų privilegijų ir griežtai stebint duomenis ir kontrolės srautus pasiekia beveik visišką greito įpurškimo ir eskalavimo atakų mažinimą, pranokdamas ankstesnių ML pagrįstų ar agentų izoliacijos gynybą.