Ce model oferă protecții mai puternice împotriva escaladării bazate pe instrumente sau a execuției codului

Cele mai puternice protecții împotriva escaladării privilegiilor bazate pe instrumente sau a vulnerabilităților de execuție a codului provin în prezent de la proiectele avansate de agenți siguri în cadrul modelelor de limbă mare (LLM), în special a celor care folosesc o arhitectură dublă agent și principii de integritate a fluxului prompt (PFI). Aceste modele se disting prin izolarea procesării datelor de încredere și de încredere, aplicarea unei separații stricte a privilegiilor și implementarea unor balustrade de securitate deterministe pentru a preveni injecția promptă rău intenționată și accesul la resurse neautorizat.

Principii de protecție de bază în modelele de agent secure LLM

O descoperire esențială în atenuarea riscurilor de escaladare a agenților LLM este diviziunea în doi agenți intercomunicați: un agent de încredere (cu privilegii mari) care gestionează date și operațiuni sensibile sau de încredere și un agent de neîncredere (cu privilegii restrânse), care procesează, procesează contribuția potențial nesigură sau de atacare. Această izolare arhitecturală limitează domeniul de aplicare a ceea ce aportul rău intenționat poate avea impact și aplică principiul celui mai puțin privilegiu, asigurându -se că piesele neîncredite nu pot efectua operații care să le poată escalada drepturile de acces sau să execute cod arbitrar.

Prompt Flux Integrity (PFI) Cadru

PFI este un cadru avansat conceput pentru a preveni escaladarea privilegiilor prin gestionarea în siguranță a fluxului de prompturi și date de pluginuri într -un mediu LLM Agent. Oferă un flux de lucru unde:

- Agentul de încredere primește prompturi de utilizator și procesează date de încredere.
- Datele neîncredute detectate din pluginuri sau surse externe sunt descărcate către agentul de încredere.
- Agentul neîncredut are privilegii restrânse și acces limitat la unelte sau operații sensibile.
- Comunicarea între agenți folosește referințe de date codificate, mai degrabă decât conținut brut neconcercat, împiedicând injecția rău intenționată în contextul agentului de încredere.
- Gardele monitorizează fluxul de date de încredere și instrucțiuni de control, ridicând alerte dacă sunt detectate operații nesigure sau încercări de escaladare a privilegiului neautorizat, implicând astfel consimțământul utilizatorului explicit sau mecanisme automate de blocare.

Aceste gardă, Dataguard și CtrlGuard, sunt deterministe și evită falsele pozitive sau ratări prin aplicarea politicilor fluxului de date și a fluxului de control bazate pe urmărirea strictă a nivelurilor de privilegiu și a încrederii datelor. Această arhitectură reduce considerabil riscurile de a executa comenzi sau coduri rău intenționate în mediul agentului.

Eficacitatea comparativă a PFI față de apărările anterioare

Înainte de cadre precum PFI, apărările comune s-au bazat foarte mult pe reglarea fină a modelului și învățarea în context pentru a descuraja generarea promptă dăunătoare sau execuția comenzii. În timp ce sunt utile, aceste abordări probabilistice au fost vulnerabile la ocolire. Alte abordări au introdus partiții de încredere/de încredere, dar adesea nu aveau balustrade deterministe, ceea ce a dus la garanții de securitate incomplete.

PFI îmbunătățește aceste apărări combinând:

- Clasificarea de încredere a surselor de date pentru identificarea conținutului de încredere.
- Separarea strictă a privilegiilor aplicate prin mai mulți agenți redirecționați.
- Executarea politicilor prompte cu mecanisme formale de protecție.
- Alertarea în timp real și aprobarea utilizatorului pe fluxuri suspecte.

Rezultatele testelor de referință arată că PFI reduce dramatic escaladarea privilegiilor și ratele de succes ale atacului de injecție promptă până la aproape zero, depășind cu mult sisteme anterioare precum React Agent, IsolAgTt și F-Secure LLM, menținând în același timp o utilizare operațională mai mare.

Cum aceste protecții atenuează riscurile de execuție a codului

Escaladarea bazată pe instrumente apare adesea atunci când intrarea atacatorului trântește un agent LLM pentru a emite comenzi de shell neautorizate sau a executa cod arbitrar. Prin izolarea intrărilor de încredere în medii cu privilegiu scăzut și screeningul riguros și controlul fluxurilor de date, aceste modele împiedică intrarea atacatorului să corupe contextul de execuție al agentului de încredere sau să ridice privilegiile.

Mai mult decât atât, întrucât agenții nevrustivați au pluginuri limitate și nu au acces la comenzile de sistem critice sau la API -urile sensibile, orice încercare rău intenționată de a executa cod sau de a escalada privilegiile eșuează sau este semnalat din timp. Agentul de încredere nu procesează niciodată în mod direct date brute de neîncredere, ci funcționează doar cu procuri sau referințe igienizate care nu pot încorpora instrucțiuni nocive.

Context suplimentar privind escaladarea privilegiului dincolo de LLMS

Deși aici se concentrează pe modelele bazate pe LLM, este de remarcat faptul că escaladarea privilegiilor este o problemă bine studiată în securitatea IT tradițională, unde atacatorii exploatează vulnerabilitățile software pentru a obține acces sau control neautorizat. Strategiile comune de atenuare includ:

- Sandboxing și containerizare la nivel de operare strict.
- Cele mai mici controale de acces la privilegii și permisiuni bazate pe roluri.
- Recenzii cuprinzătoare ale codului și practici de codificare sigure.
- Utilizarea sistemelor de prevenire a intruziunilor (IPS) și a instrumentelor automatizate pentru detectare și blocare.

Aceste principii completează și, uneori, stau la baza implementărilor de model sigur, mai ales atunci când LLM -urile sunt integrate cu o infrastructură de sistem mai largă.

***

În concluzie, modelele care implementează integritatea promptă a fluxului cu arhitecturi cu dublu agent și paznici deterministe oferă cele mai puternice protecții contemporane împotriva escaladării privilegiilor bazate pe instrumente și a execuției neautorizate a codului în mediile LLM. Abordarea lor de izolare a intrărilor necredincioase, aplicarea celui mai puțin privilegiu și monitorizarea riguroasă a datelor și a fluxurilor de control obține o atenuare aproape completă a atacurilor prompte de injecție și escaladare, depășind apărarea anterioară bazată pe ML sau de izolare a agentului.