Ocena wydajności GPT-4.5 w stosunku do podpowiedzi przeciwników i mechanizmów bezpieczeństwa

Jak GPT-4.5 działa w scenariuszach, w których komunikaty użytkowników próbują oszukać model

Wydajność GPT-4.5 w scenariuszach, w których komunikaty użytkowników próbują oszukać model, jest oceniana za pomocą kilku ocen, koncentrując się na jego zdolności do oparcia się podpowiedzi przeciwnika i utrzymywania standardów bezpieczeństwa.

Oceny bezpieczeństwa i jailbreaks

1. Oceny jailbreak: testy te mierzą, jak dobrze GPT-4.5 opiera się próbom obejścia swoich mechanizmów bezpieczeństwa. Model jest oceniany na podstawie jailbreaków pozbawionych człowieka i punktem odniesienia Strongreject, który ocenia odporność na wspólne ataki przeciwne. GPT-4.5 dobrze sobie radzi w jailbreakach prowadzonych przez człowieka, osiągając wysoką dokładność 0,99. Jednak w odniesieniu Strongrejects ocenia 0,34, który jest nieco niższy niż wynik GPT-4O1 wynoszący 0,87 [1].

2. Oceny hierarchii instrukcji: Aby złagodzić szybkie ataki wtrysku, GPT-4.5 jest szkolony do przestrzegania hierarchii instrukcji, ustalania priorytetów komunikatów systemowych nad komunikatami użytkownika. W ocenach, w których konflikt komunikatów systemowych i użytkowników jest konfliktowy, GPT-4.5 ogólnie dobrze sobie radzi, z dokładnością 0,76. Jest to poprawa w stosunku do GPT-4O, ale nieco poniżej wydajności GPT-4O1 [1].

3. Jailbreaks Tutor: w scenariuszach, w których model jest pouczany, aby nie ujawniać odpowiedzi na pytania matematyczne, GPT-4.5 pokazuje umiarkowany sukces, z dokładnością 0,77. Jest to znacząca poprawa w stosunku do GPT-4O, ale nie tak wysoka jak wydajność GPT-4O1 [1].

4. Ochrona wyrażenia i hasła: GPT-4.5 jest również oceniany pod kątem jego zdolności do ochrony określonych zwrotów lub haseł przed ujawnieniem za pośrednictwem komunikatów użytkownika. Dobrze działa w tych testach, z dokładnością 0,86 dla ochrony fraz i 0,92 dla ochrony haseł [1].

Czerwone oceny zespołowe

GPT-4.5 przechodzi czerwone oceny zespołowe mające na celu przetestowanie jego odporności na podpowiedzi przeciwne. Oceny te obejmują scenariusze, takie jak nielegalne porady, ekstremizm, przestępstwa z nienawiści, perswazja polityczna i samookaleczenie. GPT-4,5 wytwarza bezpieczne produkty w około 51% pierwszego zestawu oceny zespołu czerwonego, nieco wyższego niż GPT-4O, ale niższe niż GPT-4O1. W drugiej ocenie koncentrowanej na ryzykownych poradach GPT-4.5 działa lepiej niż GPT-4O, ale nie tak dobrze, że GPT-4O1 lub głębokie modele badawcze [1].

Ogólna wydajność

Podczas gdy GPT-4.5 pokazuje poprawę w zakresie obsługi wrażliwych i przeciwnych podpowiedzi w porównaniu z wcześniejszymi modelami, nadal stoi przed wyzwaniami w scenariuszach wysoce przeciwnych. Jego wydajność jest solidna w przypadku zadań ogólnego przeznaczenia, ale może nie być optymalna w przypadku zaawansowanych zadań rozwiązywania problemów lub głębokiego kodowania w porównaniu ze specjalistycznymi modelami, takimi jak O3-Mini [3] [5].

Podsumowując, GPT-4.5 pokazuje odporność na próby jej oszukania, szczególnie w scenariuszach, w których musi on priorytetowo traktować instrukcje systemowe nad wejściami użytkownika. Jednak nadal ma ograniczenia w wysoce przeciwnych kontekstach, odzwierciedlając ciągłe wyzwania w równoważeniu bezpieczeństwa i funkcjonalności w modelach AI.

Cytaty:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significly_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1izny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW