Quale modello offre protezioni più forti rispetto all'escalation o all'esecuzione del codice

Le più forti protezioni contro l'escalation dei privilegi basati su strumenti o le vulnerabilità di esecuzione del codice attualmente provengono da framework di agenti sicuri avanzati nei framework di Big Language Model (LLM), in particolare quelli che utilizzano un'architettura a doppio agente e i principi di PFI (Prompt Flow Integrity). Questi modelli si distinguono isolando l'elaborazione dei dati affidabili e non attendibili, applicando una rigorosa separazione dei privilegi e implementando i guardrail di sicurezza deterministici per prevenire l'iniezione rapida dannosa e l'accesso non autorizzato alle risorse.

Principi di protezione core nei modelli di agenti LLM Secure

Una svolta chiave nel mitigare i rischi di escalation negli agenti LLM è la divisione in due agenti intercomunicati: un agente di fiducia (con alti privilegi) che gestisce dati e operazioni di fiducia sensibili o di fiducia e un agente non attendibile (con privilegi limitati) che elaborano potenzialmente input per gli attaccanti. Questo isolamento architettonico limita l'ambito di ciò che l'input dannoso può avere un impatto e impone il principio del minor privilegio assicurando che le parti non attendibili non possano eseguire operazioni che potrebbero intensificare i loro diritti di accesso o eseguire il codice arbitrario.

Framework

Prompt Flow Integrity (PFI)

PFI è un framework avanzato progettato per prevenire l'escalation dei privilegi gestendo in modo sicuro il flusso di istruzioni e dati di plug -in all'interno di un ambiente di agente LLM. Offre un flusso di lavoro dove:

- L'agente affidabile riceve istruzioni degli utenti e processi dati affidabili.
- I dati non attendibili rilevati da plugin o fonti esterne vengono scaricati all'agente non attendibile.
- L'agente non affidabile ha privilegi limitati e accesso limitato a strumenti o operazioni sensibili.
- La comunicazione tra agenti utilizza riferimenti di dati codificati piuttosto che contenuti non attendibili grezzi, impedendo l'iniezione dannosa nel contesto dell'agente di fiducia.
- Guardrails monitorare il flusso di dati non attendibili e istruzioni di controllo, sollevando avvisi se vengono rilevate operazioni non sicure o tentativi di escalation dei privilegi non autorizzati, comportando così un consenso esplicito dell'utente o meccanismi di blocco automatizzati.

Questi guardrail, Dataguard e CtrlGuard, sono deterministici ed evitano falsi positivi o mancati applicazione del flusso di dati e delle politiche di flusso di controllo basate sul rigoroso monitoraggio dei livelli di privilegio e l'affidabilità dei dati. Questa architettura riduce notevolmente i rischi di esecuzione di comandi maliziosi o codice all'interno dell'ambiente agente.

Efficacia comparativa di PFI sulle difese precedenti

Prima di framework come PFI, le difese comuni si basavano fortemente sulla messa a punto del modello e l'apprendimento in contesto per scoraggiare la generazione pronta dannosa o l'esecuzione del comando. Sebbene utili, questi approcci probabilistici erano vulnerabili al bypass. Altri approcci hanno introdotto partizioni affidabili/non attendibili, ma spesso mancavano di protettori deterministici, con conseguenti garanzie di sicurezza incomplete.

PFI migliora queste difese combinando:

- Classificazione di fiducia delle fonti di dati per identificare il contenuto non attendibile.
- Separazione privilegiata rigorosa applicata attraverso più agenti reindirizzati.
- Applicazione della politica del flusso rapido con meccanismi di guardrail formale.
- Avviso in tempo reale e approvazione dell'utente su flussi sospetti.

I risultati dei test di riferimento mostrano che la PFI riduce drasticamente l'escalation dei privilegi e le tassi di successo di attacco di iniezione rapido a zero, di gran lunga sovraperformando sistemi precedenti come Agent React, Isolategpt e F-Secure LLM, mantenendo al contempo l'usabilità operativa superiore.

come queste protezioni mitigano i rischi di esecuzione del codice

L'escalation basata su strumenti sorge spesso quando l'attaccante ingresso inganna un agente LLM nel rilasciare comandi di shell non autorizzati o nell'esecuzione di codice arbitrario. Isolando gli input non attendibili in ambienti a basso privilegio e rigorosamente screening e controllando i flussi di dati, questi modelli impediscono agli input degli attaccanti di corrompere il contesto di esecuzione dell'agente affidabile o di elevare i privilegi.

Inoltre, poiché gli agenti non attendibili hanno plugin limitati e nessun accesso a comandi di sistema critici o API sensibili, qualsiasi tentativo dannoso di eseguire codice o intensificare i privilegi non riesce o viene contrassegnato in anticipo. L'agente di fiducia non elabora mai direttamente dati grezzi non attendibili ma funziona solo con proxy sanitari o riferimenti che non possono incorporare istruzioni dannose.

contesto aggiuntivo sull'escalation del privilegio oltre LLMS

Mentre l'attenzione qui è sui modelli basati su LLM, vale la pena notare che l'escalation dei privilegi è un problema ben studiato nella sicurezza IT tradizionale, in cui gli aggressori sfruttano le vulnerabilità del software per ottenere accesso o controllo non autorizzati. Le strategie di mitigazione comuni includono:

- Sandboxing e containerizzazione a livello di sistema operativo rigoroso.
- Controlli di accesso al privilegio meno privilegiati e autorizzazioni basate sul ruolo.
- Recensioni complete del codice e pratiche di codifica sicure.
- Uso di sistemi di prevenzione delle intrusioni (IPS) e strumenti automatizzati per il rilevamento e il blocco.

Questi principi completano e talvolta sostengono distribuzioni di modelli sicuri, specialmente quando gli LLM sono integrati con infrastrutture di sistema più ampia.

***

In conclusione, i modelli che implementano una rapida integrità del flusso con architetture a doppio agente e guardrail deterministici offrono le più forti protezioni contemporanee contro l'escalation dei privilegi basati su strumenti e l'esecuzione del codice non autorizzata in ambienti LLM. Il loro approccio all'isolamento di input non attendibili, applicando il minor privilegio e il monitoraggio rigoroso dei dati e i flussi di controllo raggiungono una mitigazione quasi completa di attacchi di iniezione e escalation tempestivi, superando le difese di isolamento di ML o di isolamento per agenti.