Który model oferuje silniejszą ochronę przed eskalacją opartą na narzędzia lub wykonywanie kodu

Najsilniejsze zabezpieczenia przed eskalacją uprawnień opartą na narzędzia lub luki w zakresie wykonywania kodu pochodzą obecnie z zaawansowanych projektów bezpiecznych agentów w ramach Model Large Language (LLM), szczególnie tych wykorzystujących zasady architektury podwójnie agentowej i szybkiej integralności przepływu (PFI). Modele te wyróżniają się poprzez izolowanie zaufanego i niezaufanego przetwarzania danych, egzekwując ścisłe oddzielenie uprawnień i wdrażanie deterministycznych ochroniarzy, aby zapobiec złośliwemu szybkiemu wstrzyknięciu i nieautoryzowanemu dostępowi do zasobów.

podstawowe zasady ochrony w bezpiecznych modelach agentów LLM

Kluczowym przełomem w ograniczaniu ryzyka eskalacji w agentach LLM jest podział na dwóch agentów związanych z komunikatem: zaufany agent (z wysokimi uprawnieniami), który obsługuje wrażliwe lub operacje zaufane, oraz niezakłócony agent (z ograniczonymi uprawnieniami), który przetwarza potencjalnie niebędący niepokojącym lub zawierającym atakiem. Ta izolacja architektoniczna ogranicza zakres tego, jaki złośliwy wkład może wpłynąć i egzekwuje zasadę najmniejszego przywileju, zapewniając, że niezaufane części nie mogą wykonywać operacji, które mogłyby eskalować ich prawa dostępu lub wykonać dowolny kod.

Ramy integralności przepływu (PFI)

PFI to zaawansowane ramy zaprojektowane w celu zapobiegania eskalacji uprawnień poprzez bezpieczne zarządzanie przepływem podpowiedzi i danych wtyczek w środowisku agenta LLM. Oferuje przepływ pracy, gdzie:

- Zaufany agent otrzymuje podpowiedzi użytkownika i przetwarza zaufane dane.
- Niezoczyste dane wykryte z wtyczek lub źródeł zewnętrznych są przenoszone do niezaufanego agenta.
- Niezaufany agent ograniczył uprawnienia i ograniczony dostęp do wrażliwych narzędzi lub operacji.
- Komunikacja między agentami wykorzystuje zakodowane odniesienia do danych, a nie surowe niezaufane treści, uniemożliwiając złośliwe wstrzyknięcie do kontekstu zaufanego agenta.
- Strafy monitorują przepływ niezaufanych danych i instrukcji kontrolnych, podnosząc powiadomienia, jeśli wykryte są niebezpieczne operacje lub nieautoryzowane próby eskalacji uprawnień, obejmując w ten sposób wyraźną zgodę użytkownika lub zautomatyzowane mechanizmy blokowania.

Te poręcze, DataGuard i Ctrlguard, są deterministyczne i unikają fałszywych pozytywów lub braków poprzez egzekwowanie przepływu danych i kontroli zasad przepływu w oparciu o ścisłe śledzenie poziomów uprawnień i wiarygodności danych. Architektura ta znacznie zmniejsza ryzyko wykonywania złośliwych poleceń lub kodu w środowisku agenta.

Porównawcza skuteczność PFI w stosunku do poprzednich obrony

Przed frameworkami, takimi jak PFI, wspólne obrony polegały w dużej mierze na modelu dopracowującym i uczeniu się w kontekście, aby zniechęcać do szkodliwego generowania szybkiego generowania lub realizacji poleceń. Choć pomocne, te probabilistyczne podejścia były podatne na obejście. Inne podejścia wprowadziły zaufane/niezaufane partycje, ale często brakowało deterministycznych poręczy, co spowodowało niepełne gwarancje bezpieczeństwa.

PFI zwiększa te obrony, łącząc:

- Klasyfikacja zaufania źródeł danych w celu zidentyfikowania niezaufanych treści.
- Ścisłe oddzielenie przywilejów egzekwowane przez wielu przekierowanych agentów.
- Szybkie egzekwowanie polityki przepływu za pomocą formalnych mechanizmów poręczy.
- Ustraszanie w czasie rzeczywistym i zatwierdzenie przez użytkowników podejrzanych przepływów.

Wyniki testów porównawczych pokazują, że PFI radykalnie zmniejsza eskalację uprawnienia i szybkie wskaźniki powodzenia ataku wtrysku do prawie zera, znacznie przewyższające wcześniejsze systemy, takie jak Agent React, IsolateGPT i F-Secure LLM, przy jednoczesnym zachowaniu wyższej użyteczności operacyjnej.

Jak te zabezpieczenia łagodzą ryzyko wykonywania kodu

Eskalacja oparta na narzędzia często powstaje, gdy atakujący wprowadza agenta LLM do wydawania nieautoryzowanych poleceń powłoki lub wykonywania dowolnego kodu. Izolując niezaufane dane wejściowe w środowiskach o niskim nastawieniu i rygorystyczne badanie przesiewowe i kontrolujące przepływy danych, modele te uniemożliwiają wejście atakującego przed uszkodzeniem kontekstu realizacji zaufanego agenta lub podwyższającymi uprawnieniami.

Ponadto, ponieważ niezaufani agenci mają ograniczone wtyczki i brak dostępu do krytycznych poleceń systemowych lub wrażliwych interfejsów API, jakakolwiek złośliwa próba wykonania kodu lub eskalacji uprawnień zawodzi lub jest wcześnie oznaczona. Zaufany agent nigdy nie przetwarza bezpośrednio niezaufanych surowych danych, ale działa tylko z odkażonymi proxy lub referencjami, które nie mogą osadzić szkodliwych instrukcji.

Dodatkowy kontekst na temat eskalacji przywilejów poza LLMS

Podczas gdy koncentruje się tutaj na modelach opartych na LLM, warto zauważyć, że eskalacja przywileju jest dobrze zbadanym problemem w tradycyjnym bezpieczeństwie IT, w którym atakujący wykorzystują słabości oprogramowania w celu uzyskania nieautoryzowanego dostępu lub kontroli. Wspólne strategie łagodzenia obejmują:

- Surowe piasowisko i kontenerowanie na poziomie systemu operacyjnego.
- Kontrola dostępu do najmniejszych przywilejów i uprawnienia oparte na role.
- Kompleksowe przegląd kodów i bezpieczne praktyki kodowania.
- Wykorzystanie systemów zapobiegania włamaniu (IPS) i zautomatyzowanych narzędzi do wykrywania i blokowania.

Zasady te uzupełniają się i czasami leżą u podstaw bezpiecznych wdrożeń modeli, szczególnie gdy LLM są zintegrowane z szerszą infrastrukturą systemową.

***

Podsumowując, modele wdrażające integralność szybkiej przepływu z architekturami podwójnie agentami i deterministyczne poręcze oferują najsilniejszą współczesną ochronę przed eskalacją uprawnień opartą na narzędzia i nieautoryzowanego wykonywania kodu w środowiskach LLM. Ich podejście do izolowania niezaufanych nakładów, egzekwowania najmniejszych uprawnień oraz rygorystycznego monitorowania danych i przepływów kontroli osiąga prawie ograniczenie ataków szybkiego wstrzyknięcia i eskalacji, przewyższając wcześniejszą obronę opartą na ML lub izolacji agenta.