GPT-4.5: Umgang mit widersprüchlichen Anweisungen und Anpassungsfähigkeit

Kann sich an GPT-4,5 an neue Arten von widersprüchlichen Anweisungen anpassen, auf denen es nicht ausgebildet wurde

GPT-4.5 ist so konzipiert, dass sie widersprüchliche Anweisungen über eine Anweisungshierarchie verarbeiten, in der Systemnachrichten vor Benutzermeldungen priorisiert werden, um Risiken wie schnelle Injektionen und andere Angriffe zu mildern [1]. Es ist jedoch eine komplexe Frage, ob sich GPT-4.5 an neue Arten von widersprüchlichen Anweisungen anpassen kann, auf denen es nicht geschult wurde.

Training und Bewertung

GPT-4.5 wurde mit neuen Überwachungstechniken in Kombination mit herkömmlichen Methoden wie beaufsichtigter Feinabstimmung (SFT) und Verstärkungslernen aus menschlichem Feedback (RLHF) trainiert [1]. Diese Methoden zielen darauf ab, die Ausrichtung des Modells mit der Benutzerabsicht und deren Fähigkeit zu verbessern, Anweisungen genauer zu befolgen. Das Modell wurde in verschiedenen Szenarien bewertet, in denen System- und Benutzernachrichten in Konflikten konflikten und Verbesserungen gegenüber früheren Modellen wie GPT-4O [1] zeigen.

Anpassungsfähigkeit an neue widersprüchliche Anweisungen

Während GPT-4,5 eine bessere Leistung bei der Behandlung von bekannten Arten von widersprüchlichen Anweisungen zeigt, hängt seine Fähigkeit, sich an völlig neue Arten von Konflikten anzupassen, von mehreren Faktoren ab:

1. Generalisierungsfähigkeiten: Die Schulung von GPT-4.5 umfasst das Skalieren von unbeaufsichtigtem Lernen, das seine Fähigkeit, breitere Kontexte zu verallgemeinern und zu verstehen, verbessert [1]. Dies könnte möglicherweise dazu beitragen, Muster in neuen widersprüchlichen Anweisungen zu erkennen.

2. Anweisungshierarchie: Die Anweisungshierarchie des Modells ist so konzipiert, dass Systemnachrichten priorisieren, was zur Aufrechterhaltung der Sicherheit und der Einhaltung vordefinierter Regeln hilft. Wenn jedoch neue widersprüchliche Anweisungen außerhalb des Rahmens dieser Hierarchie liegen, könnte das Modell Schwierigkeiten haben, sich ohne zusätzliche Ausbildung oder Feinabstimmung anzupassen.

3. Schnelltechnik und Gerüst: Benutzer können fortgeschrittene Aufforderungstechniken oder Gerüste einsetzen, um das Modell zum Verständnis und der Befolgung neuer Anweisungen zu steuern. Dieser Ansatz kann dazu beitragen, Verhaltensweisen über das, was das Modell explizit für [1] ausgebildet wurde, hervorzubringen.

4. Einschränkungen und Sicherheitsbewertungen: Trotz Verbesserungen steht GPT-4,5 immer noch Herausforderungen bei der Behandlung komplexer oder neuer Szenarien. Sicherheitsbewertungen haben gezeigt, dass das Modell zwar bei bekannten Aufgaben gut abschneidet, aber immer das Risiko besteht, dass es in unvorhergesehenen Kontexten Anweisungen nicht befolgt [1].

Abschluss

Während GPT-4,5 in der Umstellung widersprüchlicher Anweisungen in der Lage ist als seine Vorgänger, ist die Anpassungsfähigkeit an völlig neue Arten von Konflikten durch seine Trainingsdaten und -gestaltung begrenzt. Möglicherweise erfordern zusätzliche Strategien für Feinabstimmungen oder kreative Aufforderung, um mit neuartigen Szenarien effektiv umzugehen. Die laufenden Forschungs- und Benutzerinteraktionen mit GPT-4,5 geben mehr Einblicke in ihre Fähigkeiten und Einschränkungen in diesem Bereich.

Zitate:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-faking-in-large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-Heere
[6] https://community.openai.com/t/gpt-4o-not-following-simple---so-cear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_sinificantely_and/