GPT-4.5: lepsza wydajność w zakresie obchodzenia się z sprzecznymi instrukcjami

W jaki sposób wydajność GPT-4.5 w porównaniu z wcześniejszymi wersjami w zakresie obsługi sprzecznych instrukcji

GPT-4.5 pokazuje lepszą wydajność w zakresie obchodzenia się z sprzecznymi instrukcjami w porównaniu z wcześniejszymi wersjami, szczególnie poprzez ulepszoną hierarchię instrukcji. Ta funkcja pozwala modelowi priorytetowe rozstrzyganie komunikatów systemowych nad wejściami użytkowników, ograniczając ryzyko związane z szybkimi zastrzykami i innymi atakami, które mogą zastąpić instrukcje bezpieczeństwa.

W ocenie obejmujących sprzeczne typy wiadomości GPT-4.5 ogólnie przewyższa GPT-4O. Model jest przeszkolony w zakresie przestrzegania instrukcji w komunikacie o najwyższym priorytecie, który pomaga w scenariuszach, w których konflikt komunikatów systemowych i użytkowników. Na przykład, w scenariuszu, w którym model polega na tym, aby nie rozdawać odpowiedzi na pytanie matematyczne, GPT-4.5 pokazuje lepsze przestrzeganie tych instrukcji systemowych w porównaniu z GPT-4O, chociaż nie przewyższa GPT-4O1 we wszystkich ocenach [1].

Ponadto GPT-4.5 został oceniony w scenariuszach, w których musi on chronić określone frazy lub hasła przed ujawnieniem za pomocą monitów użytkownika. W tych ocenach GPT-4.5 działa dobrze, co wskazuje na jego zdolność do utrzymania bezpieczeństwa i przestrzegania instrukcji systemowych, nawet w obliczu sprzecznych danych wejściowych użytkowników [1].

Jednak podczas gdy GPT-4.5 poprawia wcześniejsze modele w zakresie obchodzenia się z sprzecznymi instrukcjami, nadal stoi przed wyzwaniami w niektórych złożonych scenariuszach. Wydajność modelu w ocenach zespołu czerwonego, które symulują podpowiedź przeciwne, pokazuje, że w niektórych przypadkach może wytwarzać niebezpieczne wyniki, choć ogólnie działa lepiej niż GPT-4O w tych trudnych testach [1].

Ogólnie rzecz biorąc, ulepszenia GPT-4.5 w zakresie obsługi sprzecznych instrukcji sprawiają, że jest to bardziej niezawodny wybór aplikacji wymagających ścisłego przestrzegania wytycznych bezpieczeństwa i instrukcji systemowych.

Cytaty:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalalkative.com/info/gpt-models-compreded
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-liggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/
[7] https://www.thheverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-fasoning