GPT-4.5: Obsługa sprzecznych instrukcji i zdolności adaptacyjnych

Czy GPT-4.5 może dostosować się do nowych rodzajów sprzecznych instrukcji, w których nie został przeszkolony

GPT-4.5 został zaprojektowany do obsługi sprzecznych instrukcji za pośrednictwem hierarchii instrukcji, która priorytetowo traktuje komunikaty systemowe przez wiadomości użytkowników w celu ograniczenia ryzyka, takie jak szybkie zastrzyki i inne ataki zastępujące instrukcje bezpieczeństwa [1]. Jednak to, czy GPT-4.5 może dostosować się do nowych rodzajów sprzecznych instrukcji, w których nie został przeszkolony, jest złożonym pytaniem.

Szkolenie i ocena

GPT-4.5 został przeszkolony przy użyciu nowych technik nadzoru w połączeniu z tradycyjnymi metodami, takimi jak nadzorowane dostrajanie (SFT) i uczenie się wzmocnienia z ludzkich informacji zwrotnych (RLHF) [1]. Metody te mają na celu poprawę dostosowania modelu z intencją użytkownika i jego zdolność do dokładniejszego przestrzegania instrukcji. Model został oceniony w różnych scenariuszach, w których konflikt komunikatów systemowych i użytkowników, pokazujący ulepszenia w stosunku do poprzednich modeli, takich jak GPT-4O [1].

zdolność adaptacji do nowych sprzecznych instrukcji

Podczas gdy GPT-4.5 wykazuje lepszą wydajność w obsłudze znanych rodzajów sprzecznych instrukcji, jego zdolność do dostosowywania się do zupełnie nowych rodzajów konfliktów zależy od kilku czynników:

1. Możliwości uogólnienia: Szkolenie GPT-4.5 obejmuje skalowanie uczenia się bez nadzoru, co zwiększa jego zdolność do uogólnienia i zrozumienia szerszych kontekstów [1]. Może to potencjalnie pomóc w rozpoznaniu wzorców w nowych sprzecznych instrukcjach.

2. Hierarchia instrukcji: Hierarchia instrukcji modelu została zaprojektowana do priorytetu komunikatów systemowych, co pomaga w utrzymaniu bezpieczeństwa i przestrzegania predefiniowanych zasad. Jeśli jednak nowe konfliktowe instrukcje wykluczają zakres tej hierarchii, model może walczyć o dostosowanie się bez dodatkowego szkolenia lub dostrajania.

3. Szybkie inżynieria i rusztowanie: Użytkownicy mogą zastosować zaawansowane techniki podpowiedzi lub rusztowania, aby poprowadzić model w zakresie zrozumienia i przestrzegania nowych instrukcji. Takie podejście może pomóc w wywołaniu zachowań poza tym, co model został wyraźnie wyszkolony [1].

4. Ograniczenia i oceny bezpieczeństwa: Pomimo ulepszeń, GPT-4.5 nadal stoi przed wyzwaniami w zakresie obsługi złożonych lub nowatorskich scenariuszy. Oceny bezpieczeństwa wykazały, że chociaż model działa dobrze w znanych zadaniach, zawsze istnieje ryzyko, że nie przestrzega instrukcji w nieprzewidzianych kontekstach [1].

Wniosek

Podczas gdy GPT-4.5 jest bardziej zdolny niż jego poprzednicy w zakresie obchodzenia się z sprzecznymi instrukcjami, jego możliwość dostosowania się do zupełnie nowych rodzajów konfliktów jest ograniczona przez dane dotyczące szkolenia i projektowania. Może to wymagać dodatkowych strategii dostrajania lub twórczego podpowiedzi, aby skutecznie obsługiwać nowatorskie scenariusze. Trwające badania i interakcje użytkowników z GPT-4.5 zapewnią więcej wglądu w jego możliwości i ograniczenia w tym obszarze.

Cytaty:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.antropic.com/m/983c85a201a962f/original/alignment-fakeing-b--large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.thheverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/