Какая модель предлагает более сильную защиту от эскалации или выполнения кода на основе инструментов

Самая сильная защита от уязвимостей на основе привилегий на основе инструментов или выполнения кода в настоящее время связана с расширенными конструкциями безопасного агента в рамках крупных языковых моделей (LLM), особенно тех, которые используют принципы архитектуры с двойным агентом и быстрого целостности потока (PFI). Эти модели различают себя путем выделения доверенной и ненадежной обработки данных, обеспечения строгого разделения привилегий и реализации детерминированных ограждений безопасности для предотвращения вредоносных оперативных внедрения и несанкционированного доступа к ресурсам.

Принципы защиты ядра в безопасных моделях агентов LLM

Ключевым прорывом в смягчении рисков эскалации у агентов LLM является разделение на два взаимосвязанных агента: доверенный агент (с высокими привилегиями), который обрабатывает конфиденциальные или доверенные данные и операции, а также с ущербным агентом (с ограниченными привилегиями), который обрабатывает потенциально неразрешенный или контролируемый атакующий вклад. Эта архитектурная изоляция ограничивает объем того, что вредоносный вход может повлиять, и обеспечивает соблюдение принципа наименьшей привилегии, гарантируя, что ненадежные детали не могут выполнять операции, которые могут обострить их права доступа или выполнять произвольный код.

Структура целостности потока (PFI)

PFI - это расширенная структура, предназначенная для предотвращения эскалации привилегий путем надежного управления потоком подсказок и данных плагина в среде агента LLM. Он предлагает рабочий процесс, где:

- Доверенный агент получает подсказки пользователей и процессы доверенных данных.
- Недоверенные данные, обнаруженные из плагинов или внешних источников, разгружены на ненадежный агент.
- Недоверенный агент имеет ограниченные привилегии и ограниченный доступ к конфиденциальным инструментам или операциям.
- Связь между агентами использует кодируемые ссылки на данные, а не сырой неназванный контент, предотвращая вредоносную инъекцию в контекст доверенного агента.
- Guardrails контролируют поток ненадежных инструкций по данным и управлению, повышение оповещений, если обнаружены небезопасные операции или несанкционированные попытки эскалации привилегий, что включает явное согласие пользователя или автоматические механизмы блокировки.

Эти ограждения, Dataguard и Ctrlguard, являются детерминированными и избегают ложных срабатываний или промахов, обеспечивая соблюдение политик потока данных и управления потоком на основе строгого отслеживания уровней привилегий и достоверности данных. Эта архитектура значительно снижает риски выполнения вредоносных команд или кода в среде агента.

Сравнительная эффективность PFI по сравнению с предыдущей защитой

Before frameworks like PFI, common defenses relied heavily on model fine-tuning and in-context learning to discourage harmful prompt generation or command execution. Несмотря на то, что они полезны, эти вероятностные подходы были уязвимы для обхода. Другие подходы, введенные доверенные/ненадежные перегородки, но часто не имели детерминированных ограждений, что привело к неполным гарантиям безопасности.

PFI усиливает эту защиту, объединив:

- Доверие классификации источников данных для выявления ненадежного контента.
- Строгое разделение привилегий, осуществляемое через несколько перенаправленных агентов.
- Быстрое управление политикой потока с формальными механизмами ограждения.
- Оповещение в реальном времени и одобрение пользователя на подозрительные потоки.

Результаты эталонных тестов показывают, что PFI значительно снижает эскалацию привилегий и быстрое успешность атаки инъекционных атак до нуля, что значительно превосходит более ранние системы, такие как Agat Agent, Isolategpt и F-Secure LLM, сохраняя при этом более высокую эксплуатационную удобство использования.

Как эти защиты снижают риски выполнения кода

Эскалация на основе инструментов часто возникает, когда ввод злоумышленника обманывает агент LLM в выдачу несанкционированных команд оболочки или выполнения произвольного кода. Изоляция ненадежных входов в средах с низким привилегией и строгого скрининга и контроля потоков данных, эти модели мешают вводу злоумышленника развращать контекст выполнения доверенного агента или повышать привилегии.

Более того, поскольку ненадежные агенты имеют ограниченный плагины, и нет доступа к критическим системам системы или чувствительным API, любая злонамеренная попытка выполнить код или эскалационные привилегии не выполняются или помечаются на ранней стадии. Доверенный агент никогда не обрабатывает неуверенные необработанные данные, а работает только с дезинфицированными прокси или ссылками, которые не могут внедрять вредные инструкции.

Дополнительный контекст по эскалации привилегий за пределами LLMS

Хотя основное внимание здесь уделяется моделям на основе LLM, стоит отметить, что эскалация привилегий является хорошо изученной проблемой в традиционной ИТ-безопасности, где злоумышленники используют уязвимости программного обеспечения, чтобы получить несанкционированный доступ или контроль. Общие стратегии смягчения включают:

- Строгие песочницы на уровне операционной системы и контейнеризация.
- Наименьшая привилегия контроля доступа и разрешения на основе ролей.
- Комплексные обзоры кода и безопасные методы кодирования.
- Использование систем предотвращения вторжений (IPS) и автоматических инструментов для обнаружения и блокировки.

Эти принципы дополняют, а иногда и лежат в основе безопасных развертываний модели, особенно когда LLMS интегрированы с более широкой системной инфраструктурой.

***

В заключение, модели, внедряющие оперативность оперативной целостности потока с архитектурами с двойным агентом и детерминированными ограждениями, предлагают самую сильную современную защиту от эскалации привилегий на основе инструментов и несанкционированного выполнения кода в средах LLM. Их подход к изоляции ненадежных входов, обеспечения соблюдения наименьшей привилегии и строгого мониторинга данных и управляющих потоков достигает почти выполнения смягчения последствий быстрого инъекции и эскалационных атак, превосходя предшествующие защиты от изоляции ML или агента.