GPT-4.5-Anweisungshierarchie: Priorisierung von Systemnachrichten für Sicherheit und Sicherheit

Wie priorisieren GPT-4.5 Systemnachrichten vor Benutzernachrichten?

GPT-4.5 priorisiert Systemmeldungen über Benutzernachrichten über eine Anweisungshierarchie, die das Risiko von schnellen Injektionen und anderen Angriffen mildern soll, die möglicherweise die Sicherheitsanweisungen des Modells überschreiben. Diese Hierarchie klassifiziert Nachrichten in zwei Haupttypen: Systemnachrichten und Benutzernachrichten. Systemnachrichten sind im Wesentlichen versteckte Anweisungen, die das Verhalten der KI leiten, während Benutzernachrichten die von den Benutzern bereitgestellten Eingaben sind.

In GPT-4.5, wenn System- und Benutzermeldungen konflikt, wird das Modell darauf geschult, die Anweisungen in der Systemnachricht über diejenigen in der Benutzernachricht zu befolgen. Dies wird erreicht, indem das Modell zu Beispielen überwacht wird, bei denen diese Arten von Nachrichten in Konflikt stehen. Das Modell lernt, Systemnachrichten zu priorisieren, um die Einhaltung von Sicherheitsrichtlinien zu gewährleisten und unerwünschte Ausgänge zu verhindern.

Wenn ein Benutzer beispielsweise versucht, das Modell in schädliche Informationen zu liefern, kann die Systemnachricht das Modell anweisen, solche Anforderungen abzulehnen. Die Fähigkeit von GPT-4.5, sich an diese Hierarchie zu halten, hilft bei der Aufrechterhaltung der Sicherheitsstandards und zur Verhinderung des Manipulationen in die Erzeugung unzulässiger Inhalte.

Dieser Ansatz ist entscheidend dafür, dass sich GPT-4,5 konsequent mit seinen beabsichtigten Sicherheits- und ethischen Richtlinien verhält, selbst wenn sie mit Versuchen konfrontiert sind, diese Regeln durch geschickt gestaltete Benutzereingaben zu umgehen. Durch die Priorisierung von Systemnachrichten ist OpenAI darauf abzielt, die Zuverlässigkeit und Sicherheit des Modells in verschiedenen Anwendungen zu verbessern [1] [2].

Zitate:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/Everything-System-messages-how-to-use-them-real-world-experiments-Prompt-Injection-Protektoren
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-inany-limited-d-for-ben-sers-ineven-plus-sers-it-literally-barely-gives-you-5-messages-in-5-6-6-hours-thefar-users/sers/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-out-t-plus--neam-users-next-week-then-therprise-and-du-ners-the-the-the-of-folgende Week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_efficy_prompt_for_summarizing_gpt4/