Bewertung der Leistung von GPT-4.5 anhand von kontroversen Eingabeaufforderungen und Sicherheitsmechanismen

Wie tritt GPT-4.5 in Szenarien auf, in denen Benutzernachrichten versuchen, das Modell auszutrickten?

Die Leistung von GPT-4.5 in Szenarien, in denen Benutzernachrichten versuchen, das Modell auszutricksen, wird durch verschiedene Bewertungen bewertet, wobei sie sich auf die Fähigkeit konzentrieren, widersprüchliche Aufforderungen zu widerstehen und Sicherheitsstandards aufrechtzuerhalten.

Sicherheitsbewertungen und Jailbreaks

1. Jailbreak-Bewertungen: Diese Tests messen, wie gut GPT-4.5-Versuche, seine Sicherheitsmechanismen zu umgehen, widersetzt. Das Modell wird an Jailbreaks und dem Strongreject-Benchmark bewertet, der die Resistenz gegen häufige kontroverse Angriffe bewertet. GPT-4,5 erzielt bei Jailbreaks mit Menschenquellen gut und erreicht eine hohe Genauigkeit von 0,99. Im Strongreject-Benchmark erzielt es jedoch 0,34, was etwas niedriger ist als der Punktzahl von GPT-4O1 von 0,87 [1].

2. Anweisungshierarchie-Bewertungen: Um sofortige Injektionsangriffe zu mildern, wird GPT-4.5 geschult, um eine Hierarchie von Anweisungen zu befolgen und Systemmeldungen vor Benutzernachrichten zu priorisieren. In Bewertungen, bei denen System- und Benutzernachrichten in Konflikte konflikt, funktioniert GPT-4,5 im Allgemeinen gut mit einer Genauigkeit von 0,76. Dies ist eine Verbesserung gegenüber GPT-4O, aber leicht unter der Leistung von GPT-4O1 [1].

3. Tutor Jailbreaks: In Szenarien, in denen das Modell angewiesen wird, keine Antworten auf mathematische Fragen zu enthüllen, zeigt GPT-4,5 einen mäßigen Erfolg mit einer Genauigkeit von 0,77. Dies ist eine signifikante Verbesserung gegenüber GPT-4O, jedoch nicht so hoch wie die Leistung von GPT-4O1 [1].

4. Phrase und Kennwortschutz: GPT-4.5 wird auch an der Fähigkeit bewertet, bestimmte Phrasen oder Kennwörter vor Benutzernachrichten vor der Entdeckung zu schützen. In diesen Tests ist es gut abgebildet, mit Genauigkeiten von 0,86 für den Ausdruckschutz und 0,92 für den Kennwortschutz [1].

Red Teaming -Bewertungen

GPT-4,5 unterliegt rotes Team-Bewertungen, um seine Robustheit gegen kontroverse Aufforderungen zu testen. Diese Bewertungen behandeln Szenarien wie illegale Ratschläge, Extremismus, Hassverbrechen, politische Überzeugung und Selbstverletzung. GPT-4,5 erzeugt in etwa 51% des ersten rot-Teaming-Bewertungssatzes, etwas höher als GPT-4O, aber niedriger als GPT-4O1. In einer zweiten Bewertung, die sich auf riskante Ratschläge konzentriert, funktioniert GPT-4,5 besser als GPT-4O, aber nicht so gut wie GPT-4O1- oder Deep-Forschungsmodelle [1].

Gesamtleistung

Während GPT-4,5 im Vergleich zu früheren Modellen Verbesserungen beim Umgang mit sensiblen und kontroversen Eingaben aufweist, steht es immer noch Herausforderungen in stark kontroversen Szenarien. Seine Leistung ist solide für allgemeine Aufgaben, ist jedoch möglicherweise nicht optimal für fortschrittliche Problemlösungen oder tiefe Codierungsaufgaben im Vergleich zu spezialisierten Modellen wie O3-Mini [3] [5].

Zusammenfassend zeigt GPT-4,5 Widerstandsfähigkeit gegen Versuche, es auszutricksen, insbesondere in Szenarien, in denen die Systemanweisungen gegenüber Benutzereingaben priorisieren müssen. Es hat jedoch weiterhin Einschränkungen in stark kontroversen Kontexten und spiegelt die anhaltenden Herausforderungen bei der Ausbindung von Sicherheit und Funktionalität in KI -Modellen wider.

Zitate:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-ishere-how-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_sinifictificent_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW