Ulepszenia GPT-4.5 w zakresie obchodzenia się z sprzecznymi instrukcjami i ulepszeniami bezpieczeństwa

W jaki sposób wydajność GPT-4.5 w porównaniu z wcześniejszymi wersjami w zakresie obsługi sprzecznych instrukcji

GPT-4.5 wykazuje lepszą wydajność w zakresie obchodzenia się z sprzecznymi instrukcjami w porównaniu z wcześniejszymi wersjami, szczególnie poprzez zwiększenie przestrzegania hierarchii instrukcji. Ta hierarchia pozwala modelowi priorytetowe rozliczenie komunikatów systemowych nad wejściami użytkowników, ograniczając ryzyko związane z sprzecznymi monitami. W ocenie GPT-4.5 ogólnie przewyższa GPT-4O w scenariuszach, w których konflikt komunikatów systemowych i użytkowników wskazuje na lepszą zdolność do przestrzegania instrukcji bezpieczeństwa i unikania podlegania podpowiedzi przeciwnikowej [1] [5].

Kluczowe ulepszenia w zakresie obsługi sprzecznych instrukcji

1. Ocena hierarchii instrukcji: GPT-4.5 pokazuje lepszą dokładność w następujących instrukcjach systemowych nad komunikatami użytkownika. Na przykład, w scenariuszu, w którym model polega na tym, aby nie rozdawać odpowiedzi na pytanie matematyczne, GPT-4.5 działa lepiej niż GPT-4O, choć nie tak dobrze jak GPT-4O1 [1].

2. Łagodzenie szybkich zastrzyków: Priorytetem komunikatów systemowych GPT-4.5 zmniejsza ryzyko szybkich zastrzyków i innych ataków, które mogłyby zastąpić jego instrukcje bezpieczeństwa. Ma to kluczowe znaczenie dla utrzymania integralności modelu i zapobiegania niewłaściwemu użyciu [1] [5].

3. Realistyczne scenariusze: w bardziej realistycznych scenariuszach, na przykład podczas działania jako nauczyciel matematyki, GPT-4.5 lepiej opierał się próbom oszczędzania go w dostarczeniu nieautoryzowanych informacji. Jednak jego wydajność nie jest idealna i może się różnić w zależności od określonego kontekstu i dostarczonych instrukcji [1].

4. Oceny bezpieczeństwa: GPT-4.5 przechodzi rygorystyczne oceny bezpieczeństwa, aby upewnić się, że nie jest zgodna z żądaniami szkodliwych treści. Podczas gdy dobrze sobie radzi w odmawianiu niebezpiecznych treści, może nadmiernie obowiązywać więcej niż wcześniejsze modele, co wskazuje na ostrożne podejście do obsługi niejednoznacznych lub potencjalnie ryzykownych podpowiedzi [1].

Ogólnie rzecz biorąc, GPT-4.5 oferuje znaczącą poprawę w zakresie obchodzenia się z sprzecznymi instrukcjami poprzez dokładniejsze przestrzeganie wytycznych systemowych i zmniejszając wpływ przeciwników wejściowych użytkowników. Jednak, podobnie jak wszystkie modele AI, nie jest to odporne na wszystkie formy manipulacji i nadal ewoluuje wraz z ciągłymi ocenami bezpieczeństwa i aktualizacji [1] [5].

Cytaty:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalalkative.com/info/gpt-models-compreded
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-liggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/
[7] https://www.thheverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-fasoning