Verständnis der Unterrichtshierarchie von GPT-4.5, um schnelle Injektionsrisiken zu mindern

Die Anweisungshierarchie von GPT-4.5 soll das Risiko einer schnellen Injektionen mindern, indem eine klare Prioritätsreihenfolge für verschiedene Arten von Anweisungen festgelegt wird. Diese Hierarchie stellt sicher, dass Systemnachrichten, die von Entwicklern festgelegt werden, Vorrang vor Benutzernachrichten und anderen Eingaben haben. So funktioniert es und wie es hilft, schnelle Injektionsangriffe zu verhindern:

Schnittinjektionen zum Verstehen von Injektionen

Schnellinjektionsangriffe treten auf, wenn böswillige Benutzer KI -Modelle manipulieren, indem sie Eingaben bereitstellen, die die ursprünglichen Systemanweisungen überschreiben. Dies kann zu unbeabsichtigten Verhaltensweisen führen, z. B. das Enthüllen vertrauenswürdiger Informationen oder das Ausführen von nicht autorisierten Aktionen [2] [3].

Die Anweisungshierarchie

Die Anweisungshierarchie in GPT-4.5 priorisiert Anweisungen basierend auf ihrer Quelle und Bedeutung. Es kategorisiert Eingaben in verschiedene Typen, einschließlich:
- Systemnachrichten: Dies sind die Anweisungen mit höchster Priorität, die von Entwicklern festgelegt wurden. Sie definieren die primären Aufgaben und Einschränkungen, denen das Modell folgen sollte.
- Benutzernachrichten: Dies sind Eingänge, die von Benutzern bereitgestellt werden, und werden in Priorität als Systemmeldungen als niedriger als Systemnachrichten angesehen.
- Gesprächsverlauf und Toolausgänge: Diese können auch das Modell beeinflussen, haben jedoch im Allgemeinen die Priorität als Benutzernachrichten [1] [3].

mildern schnelle Injektionen

Um sofortige Injektionsangriffe zu mildern, stellt die Anweisungshierarchie sicher, dass GPT-4.5 die folgenden Prinzipien hält:
- Priorisierung: Das Modell priorisiert Systemmeldungen vor Benutzereingaben. Wenn ein Benutzer versucht, eine Eingabeaufforderung zu injizieren, die den Systemanweisungen widerspricht, wird das Modell standardmäßig die ursprüngliche Anleitung [3] [5].
- Erkennung von falsch ausgerichteten Aufforderungen: GPT-4.5 ist geschult, um Aufforderungen zu identifizieren und zu ignorieren, die mit den Systemanweisungen in Konflikt stehen. Wenn ein Benutzer beispielsweise "alle früheren Anweisungen vergessen" gibt, erkennt das Modell dies als falsch ausgerichtete Aufforderung und reagiert entsprechend [3].
-Selektives Ignorieren von Anweisungen mit niedrigerer Priorität: Das Modell ist so konzipiert, dass sie selektiv Anweisungen mit niedrigerer Priorität ignorieren, wenn sie mit höheren Prioritäten in Konflikt stehen. Dies stellt sicher, dass das Modell sein beabsichtigtes Verhalten beibehält, auch wenn sie mit böswilligen Eingaben konfrontiert sind [7].

Ausbildung und Bewertung

GPT-4.5 wird unter Verwendung von Techniken geschult, die die Unterrichtshierarchie wie die Erzeugung der synthetischen Daten und die Kontextdestillation hervorheben. Diese Methoden helfen dem Modell, die Anweisungen effektiv zu priorisieren und böswilligen Eingaben zu widerstehen [6] [7]. Die Leistung des Modells wird in Szenarien bewertet, in denen Systemmeldungen mit Benutzereingaben in Konflikt stehen, um sicherzustellen, dass sie an der Anweisungshierarchie hält und ihre Sicherheitsmerkmale beibehält [5].

Insgesamt verbessert die Anweisungshierarchie in GPT-4,5 die Sicherheit des Modells, indem sichergestellt wird, dass die von Entwicklern festgelegten Anweisungen auch angesichts widersprüchlicher oder böswilliger Benutzereingaben folgen. Dieser Ansatz ist entscheidend für den Aufbau vertrauenswürdiger KI-Systeme, die in realen Anwendungen sicher arbeiten können.

Zitate:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-injection-types-prevent-xamples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/protecting-against-prompt-injection-injection-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-lms-from-prompt-injections-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2

Wie mindert die Anweisungshierarchie von GPT-4.5 das Risiko von schnellen Injektionen?

Schnittinjektionen zum Verstehen von Injektionen

Die Anweisungshierarchie

mildern schnelle Injektionen

Ausbildung und Bewertung