GPT-4,5-Verbesserungen beim Umgang mit widersprüchlichen Anweisungen und Sicherheitsverbesserungen

Wie ist die Leistung von GPT-4.5 mit früheren Versionen im Umgang mit widersprüchlichen Anweisungen im Vergleich

GPT-4,5 zeigt eine verbesserte Leistung bei der Behandlung widersprüchlicher Anweisungen im Vergleich zu früheren Versionen, insbesondere durch die verbesserte Einhaltung einer Anweisungshierarchie. Diese Hierarchie ermöglicht es dem Modell, Systemnachrichten vor Benutzereingaben zu priorisieren und Risiken aus widersprüchlichen Eingabeaufforderungen zu mildern. In Bewertungen übertrifft GPT-4,5 GPT-4O im Allgemeinen in Szenarien, in denen System- und Benutzernachrichten konflikten, was auf eine bessere Fähigkeit hinweist, Sicherheitsanweisungen zu befolgen und zu vermeiden, durch kontroverse Eingabeaufforderungen ausgetrickt zu werden [1] [5].

Wichtige Verbesserungen bei der Behandlung widersprüchlicher Anweisungen

1. Anweisungshierarchie Evaluierung: GPT-4.5 zeigt eine verbesserte Genauigkeit bei den folgenden Systemanweisungen über Benutzernachrichten. Zum Beispiel wird in einem Szenario, in dem das Modell angewiesen wird, die Antwort auf eine mathematische Frage nicht zu verschenken, besser als GPT-4O, wenn auch nicht so gut wie GPT-4O1 [1].

2. Minderung schneller Injektionen: Durch Priorisierung von Systemnachrichten reduziert GPT-4.5 das Risiko von schnellen Injektionen und anderen Angriffen, die seine Sicherheitsanweisungen außer Kraft setzen könnten. Dies ist entscheidend, um die Integrität des Modells aufrechtzuerhalten und Missbrauch zu verhindern [1] [5].

3. Realistische Szenarien: In realistischeren Szenarien, wie beispielsweise als Mathematik-Tutor, kann GPT-4,5 den Versuchen besser widersetzen, sie dazu zu bringen, nicht autorisierte Informationen bereitzustellen. Die Leistung ist jedoch nicht perfekt und kann je nach spezifischem Kontext und Anweisungen variieren [1].

4. Sicherheitsbewertungen: GPT-4.5 erfährt strenge Sicherheitsbewertungen, um sicherzustellen, dass es keine Anfragen nach schädlichen Inhalten entspricht. Es ist zwar gut bei der Ablehnung unsicherer Inhalte, aber es kann mehr als frühere Modelle überdauern, was auf einen vorsichtigen Ansatz zur Behandlung mehrdeutiger oder potenziell riskanter Aufforderungen hinweist [1].

Insgesamt bietet GPT-4,5 signifikante Verbesserungen beim Umgang mit widersprüchlichen Anweisungen, indem die Systemrichtlinien genauer einhalten und die Auswirkungen der kontroversen Benutzereingaben verringert. Wie bei allen KI -Modellen ist es jedoch nicht immun gegen alle Formen der Manipulation und entwickelt sich weiterhin mit laufenden Sicherheitsbewertungen und -aktualisierungen [1] [5].

Zitate:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-ishere-how-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differenz-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_sinificantely_and/
[7] https://www.heverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning