Hierarchia instrukcji GPT-4.5: Obsługa sprzecznych wiadomości

W jaki sposób GPT-4.5 obsługuje sprzeczne instrukcje między komunikatami systemowymi a użytkownikami

GPT-4.5 został zaprojektowany do obsługi sprzecznych instrukcji między komunikatami systemu i użytkownika za pośrednictwem hierarchii instrukcji. Ta hierarchia pomaga modelu priorytetowo przekazywać komunikaty systemowe przez wiadomości użytkowników w celu ograniczenia ryzyka związanego z sprzecznymi monitami, takimi jak szybkie zastrzyki lub inne ataki, które mogą zastąpić instrukcje bezpieczeństwa modelu.

Kluczowe funkcje hierarchii instrukcji

1. Klasyfikacja wiadomości: GPT-4.5 rozróżnia dwa typy komunikatów: komunikaty systemowe i komunikaty użytkownika. Komunikaty systemowe są uważane za wyższe autorytet i służą do ustalania wytycznych bezpieczeństwa lub szczegółowych instrukcji dla modelu.

2. Rozwiązanie konfliktów: W przypadku konfliktu systemu i komunikatów użytkownika GPT-4.5 jest przeszkolony do przestrzegania instrukcji w komunikacie systemowym. Zapewnia to, że model przestrzega wytycznych bezpieczeństwa i nie angażuje się w szkodliwe lub niedozwolone działania.

3. Ocena i szkolenie: Model jest oceniany pod kątem zdolności do radzenia sobie z konfliktami poprzez różne scenariusze. Na przykład, w scenariuszu, w którym model polega na tym, aby nie rozdawać odpowiedzi na problem matematyczny (komunikat systemowy), a użytkownik próbuje go nakłonić (komunikat użytkownika), GPT-4.5 musi się oprzeć próbie użytkownika i śledzić instrukcję systemu.

4. Wydajność: GPT-4.5 zazwyczaj dobrze sobie radzi w tych ocenach, pokazując poprawę w stosunku do poprzednich modeli, takich jak GPT-4O w zakresie obchodzenia się z konfliktami komunikatów systemu. Istnieją jednak konkretne scenariusze, w których mogą nie działać tak dobrze, jak GPT-4O lub GPT-4O1, na przykład w niektórych testach jailbreak, w których jest to oszukane do ujawnienia informacji, których nie powinien [1] [7].

Oceny bezpieczeństwa

GPT-4.5 przechodzi rygorystyczne oceny bezpieczeństwa, aby upewnić się, że nie generuje on niedozwolonej treści, takich jak nienawistne lub nielegalne porady. Oceny te oceniają również tendencję modelu do nadmiernej rezygnacji z łagodnymi podpowiedzi związanymi z tematami bezpieczeństwa. Wydajność modelu w tych obszarach ma kluczowe znaczenie dla utrzymania jego bezpieczeństwa i niezawodności podczas obsługi sprzecznych instrukcji [1].

Model specyfika

Model specyfikuje poziomy autorytetu dla różnych rodzajów instrukcji, a instrukcje na poziomie platformy mają najwyższy autorytet, a następnie instrukcje programisty i użytkownika. Ta hierarchia zapewnia, że GPT-4.5 priorytetowo traktuje bezpieczeństwo i przestrzega wytycznych, jednocześnie umożliwiając dostosowanie przez użytkowników i programistów w ramach ustalonych granic [2] [5].

Ogólnie rzecz biorąc, zdolność GPT-4.5 do obsługi sprzecznych instrukcji jest kluczowym aspektem jego projektu, zapewniając, że utrzymuje bezpieczeństwo i integralność podczas interakcji z użytkownikami.

Cytaty:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finallally-start-covering-controverssion-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exm/gpt4_has_only_been_getting_worse/