Kurš modelis piedāvā spēcīgāku aizsardzību pret uz instrumentiem balstītu eskalāciju vai koda izpildi

Spēcīgākā aizsardzība pret uz instrumentiem balstītu privilēģiju eskalāciju vai koda izpildes ievainojamības pašlaik ir uzlabota drošā aģenta dizaina lielās valodas modeļa (LLM) ietvaros, jo īpaši tie, kas izmanto divu aģentu arhitektūru un ātru plūsmas integritātes (PFI) principus. Šie modeļi atšķir sevi, izolējot uzticamu un neuzticamu datu apstrādi, stingras privilēģiju atdalīšanas ieviešanu un deterministisko apsardzes līdzekļu ieviešanu, lai novērstu ļaunprātīgu tūlītēju injekciju un neatļautu piekļuvi resursiem.

Pamata aizsardzības principi drošos LLM aģenta modeļos

Galvenais izrāviens, mazinot eskalācijas riskus LLM aģentos, ir sadalījums divos starpkomunicējošos aģentos: uzticams aģents (ar augstām privilēģijām), kas apstrādā sensitīvus vai uzticamus datus un operācijas, un nepiespiests aģents (ar ierobežotām privilēģijām), kas procesā procesā nav drošs vai uzbrucējs. Šī arhitektūras izolācija ierobežo to, ko ļaunprātīgais ieguldījums var ietekmēt, un īsteno vismazāko privilēģiju principu, nodrošinot, ka neuzticamas detaļas nevar veikt operācijas, kas varētu palielināt viņu piekļuves tiesības vai izpildīt patvaļīgu kodeksu.

uzvednes plūsmas integritātes (PFI) ietvars

PFI ir uzlabota sistēma, kas paredzēta, lai novērstu privilēģiju eskalāciju, droši pārvaldot uzvedņu un spraudņu datu plūsmu LLM aģenta vidē. Tā piedāvā darbplūsmu, kur:

- Uzticamais aģents saņem lietotāju uzvednes un apstrādā uzticamus datus.
- Neuzticami dati, kas atklāti no spraudņiem vai ārējiem avotiem, tiek izkrauti neuzticamajam aģentam.
- Neuzticamajam aģentam ir ierobežotas privilēģijas un ierobežota piekļuve jutīgiem instrumentiem vai operācijām.
- Komunikācija starp aģentiem izmanto kodētas datu atsauces, nevis neapstrādātu saturu, novēršot ļaunprātīgu injekciju uzticamā aģenta kontekstā.
- Aizsargi uzrauga neuzticamo datu un kontroles instrukciju plūsmu, paaugstinot brīdinājumus, ja tiek atklāti nedrošas darbības vai neatļauti privilēģiju eskalācijas mēģinājumi, tādējādi iesaistot skaidru lietotāja piekrišanu vai automatizētus bloķēšanas mehānismus.

Šīs aizsargmargas, Dataguard un CtrlGuard, ir deterministiskas un izvairās no nepatiesām pozitīvām pozitīvām vai garām, ieviešot datu plūsmas un kontroles plūsmas politikas, pamatojoties uz stingru privilēģiju līmeņa izsekošanu un datu uzticamību. Šī arhitektūra ievērojami samazina ļaunprātīgu komandu vai koda izpildīšanas riskus aģenta vidē.

PFI salīdzinošā efektivitāte salīdzinājumā ar iepriekšējām aizsardzības spējām

Pirms tādiem ietvariem kā PFI, parastā aizsardzība lielā mērā paļāvās uz modeļa precizēšanu un konteksta apguvi, lai atturētu no kaitīgas uzvednes ģenerēšanas vai komandu izpildes. Lai arī noderīgi, šīs varbūtības pieejas bija neaizsargātas pret apvedceļu. Citas pieejas ieviesa uzticamus/neuzticamus nodalījumus, bet bieži trūka deterministisku aizsargmargu, kā rezultātā tika iegūtas nepilnīgas drošības garantijas.

PFI uzlabo šīs aizsardzības, apvienojot:

- Uzticības datu avotu klasifikācija, lai identificētu neuzticamu saturu.
- Stingra privilēģiju atdalīšana, kas veikta, izmantojot vairākus novirzītus aģentus.
- Ātra plūsmas politikas izpilde ar oficiāliem apsardzes mehānismiem.
- Reāllaika brīdināšana un lietotāja apstiprinājums aizdomīgām plūsmām.

Rezultāti, kas iegūti no etalonu testiem, liecina, ka PFI dramatiski samazina privilēģiju eskalāciju un tūlītēju iesmidzināšanas uzbrukuma panākumu līmeni līdz nullei, ievērojami pārspējot agrākās sistēmas, piemēram, React Agent, Isolategpt un F-Secure LLM, vienlaikus saglabājot augstāku darbības izmantojamību.

Kā šīs aizsardzības mazina koda izpildes riskus

Uzņēmējdarbības eskalācija bieži rodas, kad uzbrucēja ievade triecien LLM aģentu, lai izdotu neatļautas apvalka komandas vai izpildītu patvaļīgu kodu. Izolējot neuzticamās ieejas zemas privilēģijas vidē un stingri pārbaudot un kontrolējot datu plūsmas, šie modeļi neļauj uzbrucēja ievadei sabojāt uzticama aģenta izpildes kontekstu vai paaugstināt privilēģijas.

Turklāt, tā kā neuzticamajiem aģentiem ir ierobežoti spraudņi un nav piekļuves kritiskām sistēmas komandām vai sensitīvām API, ļaunprātīgi mēģinājumi izpildīt kodu vai saasināt privilēģijas neizdodas vai tiek apzīmēti agri. Uzticamais aģents nekad tieši apstrādā neuzticamus neapstrādātus datus, bet darbojas tikai ar sanitāriem tuvinājumiem vai atsaucēm, kas nevar iegūt kaitīgas instrukcijas.

Papildu konteksts par privilēģiju eskalāciju ārpus LLM

Lai arī šeit galvenā uzmanība tiek pievērsta LLM balstītiem modeļiem, ir vērts atzīmēt, ka privilēģiju eskalācija ir labi izpētīta problēma tradicionālajā IT drošībā, kur uzbrucēji izmanto programmatūras ievainojamības, lai iegūtu neatļautu piekļuvi vai kontroli. Kopējās mazināšanas stratēģijās ietilpst:

- Stingra operētājsistēmas līmeņa smilšu kastes un konteinerizācija.
- vismazāk privilēģiju piekļuves kontroles un uz lomu atļaujas.
- Visaptverošas kodu pārskati un droša kodēšanas prakse.
- Ielaušanas profilakses sistēmu (IPS) un automatizētu instrumentu izmantošana noteikšanai un bloķēšanai.

Šie principi papildina un dažreiz ir drošas modeļa izvietošanas pamatā, it īpaši, ja LLM ir integrēta ar plašāku sistēmas infrastruktūru.

***

Noslēgumā jāsaka, ka modeļi, kas ievieš tūlītēju plūsmas integritāti ar divu aģentu arhitektūrām un deterministiskām aizsargmargām, piedāvā visspēcīgāko mūsdienu aizsardzību pret uz instrumentiem balstītu privilēģiju eskalāciju un neatļautu koda izpildi LLM vidē. Viņu pieeja neuzticamu izejvielu izolēšanai, vismazāk privilēģiju ieviešana un stingra datu uzraudzība un kontroles plūsmas sasniedz gandrīz pilnīgu ātru injekcijas un eskalācijas uzbrukumu mazināšanu, pārsniedzot iepriekšējās ML balstītas vai aģenta izolācijas aizsardzības spējas.