Wie GPT-4.5 widersprüchliche Nachrichten mit Anweisungshierarchie und Feinabstimmung behandelt

Mit welchen spezifischen Techniken wird GPT-4.5 verwendet, um widersprüchliche Nachrichten zu handhaben?

GPT-4.5 verwendet verschiedene Techniken, um widersprüchliche Nachrichten zu verarbeiten, insbesondere über das Anweisungshierarchiesystem. Diese Hierarchie legt eine vorrangige Reihenfolge für Nachrichten fest, um sicherzustellen, dass Systemmeldungen vor Benutzernachrichten, Konversationshistorien und Toolausgängen priorisiert werden [1] [2].

Anweisung Hierarchie

1. Systemmeldungen vs. Benutzernachrichten: GPT-4.5 ist geschult, um Anweisungen in Systemmeldungen über widersprüchliche Benutzernachrichten zu befolgen. Dies ist in Szenarien von entscheidender Bedeutung, in denen Benutzereingaben möglicherweise versuchen, Sicherheitsrichtlinien zu überschreiben oder Regeln zu formatieren, die vom System festgelegt wurden [1] [2].

2. Konfliktlösung: Das Modell wird an seiner Fähigkeit bewertet, Konflikte zwischen verschiedenen Arten von Nachrichten zu lösen. Wenn beispielsweise eine Systemnachricht das Modell anweist, keine bestimmte Phrase oder Kennwort anzuzeigen, und eine Benutzernachricht versucht, das Modell dazu zu übertreffen, ist GPT-4.5 so konzipiert, dass die Anweisungen der Systemnachricht [1] einhalten.

3. Training und Bewertung: GPT-4.5 wird umfangreicher Schulungen und Bewertungen durchgeführt, um sicherzustellen, dass komplexe Szenarien, in denen System- und Benutzernachrichten konflikten, umgehen kann. Dies beinhaltet Szenarien, in denen das Modell zwischen der Befolgung einer Systemanweisung oder der Anfrage eines Benutzers wählen muss, die es widerspricht [1] [2].

Übersichtliche Feinabstimmung (SFT)

GPT-4.5 verwendet auch die Überlebungsfine-Tuning (SFT), bei der das Modell zu bestimmten Beispielen trainiert wird, bei denen widersprüchliche Nachrichten vorhanden sind. Diese Technik verbessert die Fähigkeit des Modells, Systemanweisungen für Benutzereingaben zu erkennen und zu priorisieren und die Leistung bei der Behandlung widersprüchlicher Szenarien zu verbessern [3].

Neue Ausrichtungstechniken

Darüber hinaus enthält GPT-4,5 neue Ausrichtungstechniken, die das Verständnis der menschlichen Präferenzen und der Absicht verbessern. Diese Techniken helfen dem Modell, den Kontext und die Absicht sowohl hinter System- als auch Benutzernachrichten besser zu interpretieren, sodass es beim Umgang mit Konflikten fundiertere Entscheidungen treffen kann [5].

Insgesamt kombiniert der Ansatz von GPT-4.5 zur Behandlung widersprüchlicher Nachrichten erweiterte Trainingsmethoden mit einer strukturierten Hierarchie von Anweisungen, um sicherzustellen, dass das Modell die Sicherheit und Einhaltung von Systemrichtlinien priorisiert.

Zitate:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-ishere-how-how-good-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-lgth-and-structure/1025132
[5] https://venturebeat.com/ai/openai-release-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/Introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_sinificantely_and/