GPT-4,5 zeigt spezifische Verbesserungen gegenüber GPT-4O bei der Behandlung widersprüchlicher Nachrichten durch seine erweiterte Anweisungshierarchie. Mit dieser Funktion kann das Modell Systemmeldungen gegenüber Benutzernachrichten priorisieren und das Risiko von Einspritzungen und anderen Angriffen mildern, die Sicherheitsanweisungen überschreiben können. Hier sind die wichtigsten Verbesserungen:
1.. Anweisungshierarchie Evaluierung: In Bewertungen, in denen verschiedene Arten von Nachrichten miteinander in Konflikt stehen, wird GPT-4.5 geschult, um die Anweisungen in höchster Prioritätsnachricht zu befolgen. Dies hilft dem Modell, Szenarien besser zu behandeln, in denen Benutzereingaben möglicherweise versuchen, Sicherheitsprotokolle zu umgehen.
2. Konfliktlösung: GPT-4.5 übertrifft GPT-4O im Allgemeinen in Bewertungen, die Konflikte zwischen System- und Benutzernachrichten beinhalten. Diese Verbesserung ist entscheidend für die Aufrechterhaltung der Sicherheit und Einhaltung von Richtlinien in komplexen Konverszenarien.
3.. Tutor Jailbreaks: In einem bestimmten Szenario, in dem das Modell als Mathematik-Tutor fungiert, wird GPT-4,5 angewiesen, die Antwort auf eine mathematische Frage nicht bekannt zu geben. Während GPT-4.5 in dieser speziellen Bewertung den GPT-4O nicht übertrifft (die Genauigkeit von GPT-4O ist höher), zeigt es immer noch Robustheit darin, Versuche zu widerstehen, sie dazu zu bringen, nicht autorisierte Informationen bereitzustellen.
4. Phrase und Kennwortschutz: GPT-4.5 zeigt eine starke Leistung beim Schutz bestimmter Phrasen oder Passwörter, da sie durch Benutzeranforderungen bekannt gegeben werden. Dies weist auf eine bessere Fähigkeit hin, die Vertraulichkeit aufrechtzuerhalten und Sicherheitsrichtlinien im Vergleich zu einigen früheren Modellen einzuhalten.
Insgesamt sind die Verbesserungen von GPT-4,5 beim Umgang mit widersprüchlichen Botschaften Teil seiner breiteren Verbesserungen in Bezug auf Sicherheit, Nuancen und Zusammenarbeit, was es effektiver macht, sichere und angemessene Wechselwirkungen aufrechtzuerhalten [1] [3].
Zitate:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.techtarget.com/whatis/Feature/gpt-4o-fored-you-need-tous
[3] https://openai.com/index/Introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-they-compare
[5] https://www.businessinsider.com/openai-sam-altman-release-gpt-4-5-emotionally-intelligent-model-2025-2
[6] https://litslink.com/blog/gpt-4o-all-you-hoult-now-about-update-new-tools
[7] https://venturebeat.com/ai/openai-release-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/188t13h/gpt4_has_a_limit_of_40_messages3_hours_now/