GPT-4.5 ist so konzipiert, dass sie widersprüchliche Anweisungen zwischen System- und Benutzernachrichten über eine Befehlshierarchie verarbeiten. Diese Hierarchie hilft dem Modell dabei, Systemnachrichten vor Benutzernachrichten zu priorisieren, um Risiken zu mildern, die mit widersprüchlichen Eingabeaufforderungen verbunden sind, z. B. schnelle Injektionen oder andere Angriffe, die möglicherweise die Sicherheitsanweisungen des Modells überschreiben.
Schlüsselmerkmale der Befehlshierarchie
1. Nachrichtenklassifizierung: GPT-4.5 unterscheidet zwischen zwei Arten von Nachrichten: Systemnachrichten und Benutzernachrichten. Systemnachrichten werden als höhere Behörde angesehen und verwendet, um Sicherheitsrichtlinien oder spezifische Anweisungen für das Modell festzulegen.
2. Konfliktlösung: Wenn System- und Benutzermeldungen Konflikte konflikt, wird GPT-4.5 geschult, um die Anweisungen in der Systemnachricht zu befolgen. Dies stellt sicher, dass das Modell die Sicherheitsrichtlinien hält und keine schädlichen oder unzulässigen Aktivitäten durchführt.
3. Evaluierung und Schulung: Das Modell wird in seiner Fähigkeit bewertet, Konflikte in verschiedenen Szenarien zu bewältigen. In einem Szenario, in dem das Modell angewiesen wird, die Antwort auf ein mathematisches Problem (Systemnachricht) nicht zu verschenken, und der Benutzer versucht, sie dazu zu bringen (Benutzernachricht), muss GPT-4.5 dem Versuch des Benutzers widerstehen und der Systemanweisung befolgen.
4. Leistung: GPT-4,5 funktioniert in diesen Bewertungen im Allgemeinen gut und zeigt eine Verbesserung gegenüber früheren Modellen wie GPT-4O in der Handhabung der System-Benutzer-Nachrichtenkonflikte. Es gibt jedoch bestimmte Szenarien, in denen es möglicherweise nicht so gut wie GPT-4O oder GPT-4O1 funktioniert, beispielsweise in bestimmten Jailbreak-Tests, bei denen es dazu verleitet wird, Informationen zu enthüllen, die sie nicht enthüllen sollten [1] [7].
Sicherheitsbewertungen
GPT-4,5 unterzogen sich strenge Sicherheitsbewertungen, um sicherzustellen, dass sie nicht ungläubige Inhalte erzeugen, wie z. B. hasserfüllte oder illegale Ratschläge. Diese Bewertungen bewerten auch die Tendenz des Modells, gutartige Eingabeaufforderungen im Zusammenhang mit Sicherheitsthemen zu übergeben. Die Leistung des Modells in diesen Bereichen ist entscheidend für die Aufrechterhaltung seiner Sicherheit und Zuverlässigkeit beim Umgang mit widersprüchlichen Anweisungen [1].
Modellspezifikation und Autoritätsstufen
Die Modellspezifikation beschreibt die Autoritätsstufen für verschiedene Arten von Anweisungen, wobei Anweisungen auf Plattformebene die höchste Autorität haben, gefolgt von Entwickler- und Benutzeranweisungen. Diese Hierarchie stellt sicher, dass GPT-4,5 die Sicherheit priorisiert und Richtlinien hält und gleichzeitig die Anpassung durch Benutzer und Entwickler innerhalb der festgelegten Grenzen ermöglicht [2] [5].
Insgesamt ist die Fähigkeit von GPT-4,5, widersprüchliche Anweisungen zu behandeln, ein wesentlicher Aspekt seines Designs und sorgt dafür, dass es Sicherheit und Integrität beibehält, während sie mit den Benutzern interagiert.
Zitate:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://modelspec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-aiwill-inally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/