Welches Modell bietet einen stärkeren Schutz vor Tool-basierter Eskalation oder Codeausführung

Der stärkste Schutz vor Toolbasis-Privilegien-Eskalations- oder Codeausführung Sicherheitslücken stammt derzeit aus fortgeschrittenen sicheren Agentenentwürfen in großer Sprachmodell-Frameworks (LCM Model), insbesondere von PFI-Prinzipien der Dual-Agent-Architektur und der Integrität der Doppelagenten (prompt Flow Integrity). Diese Modelle unterscheiden sich durch die Isolierung der vertrauenswürdigen und nicht vertrauenswürdigen Datenverarbeitung, durch die Durchsetzung einer strengen Berechtigungstrennung und die Implementierung deterministischer Sicherheitsberichte, um eine böswillige Einspritzung und den nicht autorisierten Zugang zur Ressourcen zu verhindern.

Kernschutzprinzipien in sicheren LLM -Agentenmodellen

Ein wesentlicher Durchbruch bei der Minderung der Eskalationsrisiken in LLM-Agenten ist die Aufteilung in zwei interkommunisierende Wirkstoffe: ein vertrauenswürdiger Agent (mit hohen Berechtigungen), der sensible oder vertrauenswürdige Daten und Operationen und einen nicht vertrauenswürdigen Agenten (mit eingeschränkten Berechtigungen) umgeht, die potenziell unsichere oder angreifende Kontrollierte in Eingaben verarbeitet. Diese architektonische Isolation begrenzt den Umfang dessen, was böswillige Eingaben beeinflussen können, und erzwingt das Prinzip des geringsten Privilegs, indem sichergestellt wird, dass nicht vertrauenswürdige Teile keine Operationen ausführen können, die ihre Zugriffsrechte eskalieren oder willkürlichen Code ausführen können.

Eingabeauflauf -Flow -Integrität (PFI) Framework

PFI ist ein fortschrittliches Framework, mit dem die Eskalation zur Berechtigung verhindern soll, indem der Fluss von Eingabeaufforderungen und Plugindaten in einer LLM -Agentenumgebung sicher verwaltet wird. Es bietet einen Workflow, bei dem:

- Der vertrauenswürdige Agent empfängt Benutzeranforderungen und Prozesse vertrauenswürdige Daten.
- Nicht vertrauenswürdige Daten, die aus Plugins oder externen Quellen erkannt wurden, werden dem nicht vertrauenswürdigen Agenten abgeladen.
- Der nicht vertrauenswürdige Agent verfügt über eingeschränkte Berechtigungen und einen begrenzten Zugriff auf sensible Werkzeuge oder Operationen.
- Die Kommunikation zwischen Agenten verwendet eher codierte Datenreferenzen als den nicht vertrauenswürdigen Inhalt von RAW, wodurch eine schädliche Injektion in den Kontext des vertrauenswürdigen Agenten verhindert wird.
- Leitplanken überwachen den Fluss nicht vertrauenswürdiger Daten und Kontrollanweisungen und erhöhen Sie Warnungen, wenn unsichere Vorgänge oder nicht autorisierte Berechtigungsversuche festgestellt werden, wodurch eine explizite Einwilligung der Benutzer oder automatisierte Blockierungsmechanismen beteiligt ist.

Diese Leitplanken, DataGuard und Strgguard, sind deterministisch und vermeiden falsch positive oder vermisst, indem Datenfluss- und Kontrollflussrichtlinien auf der Grundlage der strikten Verfolgung von Privilegien und Datenvertrauenswürdigkeit durchgesetzt werden. Diese Architektur reduziert das Risiko für die Ausführung böswilliger Befehle oder Code in der Agent -Umgebung.

Vergleichende Wirksamkeit von PFI gegenüber früheren Verteidigungen

Vor Frameworks wie PFI stützten sich gemeinsame Abwehrkräfte stark auf Modellfeinabstimmungen und das Lernen des Kontextes, um eine schädliche Erzeugung oder Befehlsausführung zu entmutigen. Diese probabilistischen Ansätze waren zwar hilfreich, waren jedoch anfällig für die Umgehung. Andere Ansätze führten vertrauenswürdige/nicht vertrauenswürdige Partitionen ein, fehlten jedoch häufig deterministische Leitplanken, was zu unvollständigen Sicherheitsgarantien führte.

PFI verbessert diese Verteidigung durch Kombination:

- Vertrauen Sie die Klassifizierung von Datenquellen, um nicht vertrauenswürdige Inhalte zu identifizieren.
- Strikte Privilegentrennung durch mehrere umgeleitete Agenten durchgesetzt.
- Durchdringliche Durchsetzung der Durchflussregelung mit formellen Leitplankenmechanismen.
- Echtzeit-Alarmierung und Benutzergenehmigung für verdächtige Ströme.

Die Ergebnisse von Benchmark-Tests zeigen, dass PFI die Erfolgsraten der Privilegien und die sofortigen Injektionsangriffs erfolgreiche Erfolgsraten auf nahezu Null reduzieren und frühere Systeme wie React Agent, Isolategpt und F-Secure LLM bei weitem übertreffen und gleichzeitig eine höhere operative Benutzerfreundlichkeit aufrechterhalten.

Wie diese Schutzhöhe die Code -Ausführungsrisiken verringern

Toolbasierte Eskalation tritt häufig auf, wenn Angreifer ein LLM-Agent eingeben, um nicht autorisierte Shell-Befehle auszugeben oder willkürlichen Code auszuführen. Durch das Isolieren nicht vertrauenswürdiger Eingänge in Umgebungen mit niedrigen privilegierten Umgebungen und das strenge Screening und Kontrolle von Datenflüssen verhindern diese Modelle, dass Angreifereingaben den Ausführungskontext des vertrauenswürdigen Agenten oder die Erhöhung der Berechtigungen beeinträchtigen.

Da nicht vertrauenswürdige Wirkstoffe nur begrenzte Plugins und keinen Zugriff auf kritische Systembefehle oder sensible APIs haben, fällt ein böswilliger Versuch, Code auszuführen oder Berechtigungen zu eskalieren, fehl oder wird früh markiert. Der vertrauenswürdige Agent verarbeitet niemals direkt nicht vertrauenswürdige Rohdaten, sondern arbeitet nur mit sanitären Proxys oder Referenzen zusammen, die keine schädlichen Anweisungen einbetten können.

Zusätzlicher Kontext über die Eskalation über LLMs über Privilegien hinaus

Während der Fokus hier auf LLM-basierten Modellen liegt, ist es erwähnenswert, dass die Eskalation der Privilegien ein gut untersuchtes Problem in der traditionellen IT-Sicherheit ist, bei der Angreifer Software-Schwachstellen ausnutzen, um unbefugten Zugriff oder Kontrolle zu erhalten. Gemeinsame Minderungsstrategien umfassen:

- Sandboxen und Containerisierung auf strenger Betriebssystemebene.
- Zugriffskontrollen und rollenbasierte Berechtigungen am wenigsten Privilegien.
- Umfassende Codeüberprüfungen und sichere Codierungspraktiken.
- Verwendung von Intrusion Prevention Systems (IPS) und automatisierten Tools zur Erkennung und Blockierung.

Diese Prinzipien ergänzen sich und untermauern manchmal die Bereitstellung von sicheren Modellbereitstellungen, insbesondere wenn LLMs in eine breitere Systeminfrastruktur integriert sind.

***

Zusammenfassend lässt sich sagen, dass Modelle, die eine schnelle Durchflussintegrität mit Doppel-Agent-Architekturen und deterministischen Leitplanken implementieren, den stärksten zeitgenössischen Schutz vor Toolbasis-Privilegien-Eskalation und nicht autorisierter Codeausführung in LLM-Umgebungen bieten. Ihr Ansatz zur Isolierung nicht vertrauenswürdiger Inputs, der Durchsetzung der geringsten Privilegien und der strengen Überwachung von Daten und Kontrollströmen erreicht eine nahezu vollständige Abschwächung der schnellen Injektions- und Eskalationangriffe, wodurch frühere Abwehrkräfte der ML-basierten oder Agenten-Isolation übertroffen werden.