Найсильніший захист від ескалації привілеїв на основі інструментів або вразливості виконання коду в даний час надходить від розширених конструкцій захищених агентів у рамках великої мови (LLM), особливо тих, хто використовує принципи архітектури з подвійним агентом та оперативність потоку (PFI). Ці моделі розрізняють себе, виділяючи довірену та ненадійну обробку даних, застосовуючи суворі привілеї та впроваджуючи детерміновані охорони, щоб запобігти зловмисному введенню та несанкціонованому доступу до ресурсів.
Принципи захисту основних у безпечних моделях агентів LLM
Ключовим проривом у пом'якшувальних ризиках ескалації в агентах LLM є підрозділ на двох взаємопов'язаних агентів: довіреним агентом (з високими привілеями), який обробляє чутливі або надійні дані та операції, та ненадійний агент (з обмеженими привілеями), який обробляє потенційно небезпечні або контрольовані зловмисними вкладами. Ця архітектурна ізоляція обмежує обсяг того, що може вплинути зловмисний внесок, і застосовує принцип найменшої привілеї, гарантуючи, що ненадійні частини не можуть виконувати операції, які могли б посилити їх права доступу або виконувати довільний код.
Оперативна цілісність потоку (PFI)
PFI - це вдосконалена рамка, розроблена для запобігання ескалації привілеїв шляхом надійно управління потоком підказок та даних плагінів у середовищі агента LLM. Він пропонує робочий процес, де:
- Довірений агент отримує підказки користувача та обробляє довірені дані.
- Недоречні дані, виявлені з плагінів або зовнішніх джерел, вивантажуються до ненадійного агента.
- The untrusted agent has restricted privileges and limited access to sensitive tooling or operations.
- Спілкування між агентами використовує закодовані посилання на дані, а не сирий ненадійний вміст, запобігаючи зловмисній ін'єкції в контекст довіреного агента.
- Guardrails відстежує потік недовірених даних та інструкцій щодо управління, піднімаючи сповіщення, якщо виявляються небезпечні операції або несанкціоновані спроби ескалації привілеїв, таким чином, що включають явні механізми згоди користувача або автоматизоване блокування.
Ці огородження, Dataguard та Ctrlguard, є детермінованими та уникають помилкових позитивних результатів або промахів, застосовуючи політику потоку даних та контрольного потоку на основі суворого відстеження рівнів привілеїв та надійності даних. Ця архітектура значно зменшує ризики виконання шкідливих команд або коду в середовищі агента.
Порівняльна ефективність PFI над попередніми захисними силами
Перед рамками, як PFI, загальні захисні сили значною мірою покладалися на модель тонкої настройки та в комплекті, щоб відштовхувати шкідливе генерацію підказки або виконання команд. Незважаючи на користь, ці ймовірнісні підходи були вразливими до обходу. Інші підходи впроваджували надійні/ненадійні розділи, але часто не вистачає детермінованих огороджувань, що призводить до неповних гарантій безпеки.
PFI посилює ці захисні сили, поєднуючи:
- Класифікація довіри джерел даних для виявлення безвірного вмісту.
- Сувора поділ привілеїв, що застосовується через декілька перенаправлених агентів.
- Прийняття політики потоку з офіційними механізмами охорони.
- Попередження в режимі реального часу та затвердження користувача щодо підозрілих потоків.
Результати тестів на орієнтирі показують, що PFI різко зменшує ескалацію привілеїв та швидкі показники успішності атаки введення до нуля, значно перевершуючи попередні системи, такі як агент React, IsolTastercpt та F-Secure LLM, зберігаючи при цьому більш високу експлуатаційну зручність.
Як ці захист зменшують ризики виконання коду
Ескалація на основі інструментів часто виникає, коли зловмисник підводить агента LLM до видачі несанкціонованих команд оболонок або виконання довільного коду. Виділяючи ненадійні входи в низькопосадних середовищах та суворо скринінгу та контролю потоків даних, ці моделі запобігають введенню зловмисника від пошкодження контексту виконання довіреного агента або підвищення привілеїв.
Більше того, оскільки ненадійні агенти мають обмежені плагіни та не мають доступу до критичних системних команд чи чутливих API, будь -яка зловмисна спроба виконати код або ескалацію привілеїв не вдається або позначається рано. Довірений агент ніколи безпосередньо не обробляє ненадійні необроблені дані, але працює лише з санітизованими проксі -серверами або посиланнями, які не можуть вбудувати шкідливі інструкції.
Додатковий контекст над ескалацією привілеїв за межами LLMS
Незважаючи на те, що тут зосереджена на моделях на основі LLM, варто зазначити, що ескалація привілеїв є добре вивченою проблемою в традиційній безпеці ІТ, де зловмисники використовують вразливості програмного забезпечення для отримання несанкціонованого доступу чи контролю. Загальні стратегії пом'якшення можливості включають:
- Сувора пісочниця та контейнерність на рівні операційної системи.
- Найменший контроль доступу до привілеїв та дозволи на основі ролей.
- Комплексні огляди коду та безпечні практики кодування.
- Використання систем профілактики вторгнень (IPS) та автоматизованих інструментів для виявлення та блокування.
Ці принципи доповнюють, а іноді лежать в основі безпечного розгортання моделі, особливо коли LLM інтегруються з більш широкою системною інфраструктурою.
***
На закінчення, моделі, що реалізують цілісність потоку з подвійними архітектурами та детермінованими огородженнями, пропонують найсильніший сучасний захист від ескалації привілеїв на основі інструментів та несанкціонованого виконання коду в середовищі LLM. Їх підхід до ізоляції безвірних входів, забезпечення найменшої привілеї та суворо моніторингу даних та контрольних потоків досягає майже повного пом'якшення нападів швидкого впорскування та ескалації, перевершуючи попередні захисні засоби на основі ML або агента ізоляції.