GPT-4.5: Verbesserte Leistung beim Umgang mit widersprüchlichen Anweisungen

Wie ist die Leistung von GPT-4.5 mit früheren Versionen im Umgang mit widersprüchlichen Anweisungen im Vergleich

GPT-4,5 zeigt eine verbesserte Leistung bei der Behandlung widersprüchlicher Anweisungen im Vergleich zu früheren Versionen, insbesondere durch die verbesserte Unterrichtshierarchie. Mit dieser Funktion kann das Modell Systemmeldungen vor Benutzereingaben priorisieren und Risiken, die mit schnellen Injektionen und anderen Angriffen verbunden sind, die Sicherheitsanweisungen überschreiben können.

Bei Bewertungen, die widersprüchliche Nachrichtentypen betreffen, übertrifft GPT-4,5 GPT-4O im Allgemeinen. Das Modell ist geschult, um die Anweisungen in der höchsten Prioritätsnachricht zu befolgen, die in Szenarien hilft, in denen System- und Benutzernachrichten konflikten. In einem Szenario, in dem das Modell angewiesen wird, die Antwort auf eine mathematische Frage nicht zu verschenken, zeigt beispielsweise GPT-4,5 eine bessere Einhaltung dieser Systemanweisungen im Vergleich zu GPT-4O, obwohl es in allen Bewertungen GPT-4O1 nicht übertrifft [1].

Darüber hinaus wurde GPT-4.5 in Szenarien bewertet, in denen bestimmte Phrasen oder Passwörter durch Benutzeranforderungen vorhanden werden müssen. In diesen Bewertungen leistet GPT-4,5 gut und zeigt die Fähigkeit an, die Sicherheit aufrechtzuerhalten und Systemanweisungen zu befolgen, selbst wenn sie mit widersprüchlichen Benutzereingaben konfrontiert sind [1].

Während GPT-4,5 frühere Modelle beim Umgang mit widersprüchlichen Anweisungen verbessert, steht dies in bestimmten komplexen Szenarien immer noch Herausforderungen. Die Leistung des Modells in den Bewertungen des roten Teamings, die die kontroverse Aufforderung simulieren, zeigt, dass in einigen Fällen unsichere Ausgänge erzeugt werden können, obwohl es in diesen herausfordernden Tests im Allgemeinen besser abschneidet [1].

Insgesamt machen die Verbesserungen von GPT-4.5 bei der Behandlung widersprüchlicher Anweisungen eine zuverlässigere Wahl für Anwendungen, die strikte Einhaltung der Sicherheitsrichtlinien und Systemanweisungen erfordern.

Zitate:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-ishere-how-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differenz-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_sinificantely_and/
[7] https://www.heverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning