GPT-4.5 Hierarchia instrukcji: priorytetyczne komunikaty systemowe dla bezpieczeństwa i bezpieczeństwa

W jaki sposób GPT-4.5 priorytetowo traktuje komunikaty systemowe nad wiadomościami użytkownika

GPT-4.5 priorytetowo traktuje komunikaty systemowe nad komunikatami użytkownika za pośrednictwem hierarchii instrukcji, która ma na celu ograniczenie ryzyka szybkich zastrzyków i innych ataków, które mogą zastąpić instrukcje bezpieczeństwa modelu. Ta hierarchia sklasyfikuje wiadomości na dwa główne typy: komunikaty systemowe i komunikaty użytkowników. Wiadomości systemowe są zasadniczo ukrytymi instrukcjami, które kierują zachowaniem AI, podczas gdy komunikaty użytkowników są wejściami dostarczanymi przez użytkowników.

W GPT-4.5, gdy komunikaty systemowe i użytkowników są sprzeczne, model jest przeszkolony do przestrzegania instrukcji w komunikacie systemu nad inicjatywami w komunikacie użytkownika. Osiąga się to poprzez nadzór nad modelem na przykładach, w których tego rodzaju wiadomości są w konflikcie. Model uczy się priorytetowo traktować komunikaty systemowe w celu zapewnienia przestrzegania wytycznych bezpieczeństwa i zapobiegania niepożądanym wyjściom.

Na przykład, jeśli użytkownik próbuje nakłonić model do dostarczania szkodliwych informacji, komunikat systemowy może poinstruować model, aby odrzucić takie żądania. Zdolność GPT-4.5 do przestrzegania tej hierarchii pomaga w utrzymaniu standardów bezpieczeństwa i zapobieganiu manipulowaniu modelem do generowania niedozwolonej treści.

Podejście to ma kluczowe znaczenie dla zapewnienia, że GPT-4.5 zachowuje się konsekwentnie z zamierzonymi wytycznymi bezpieczeństwa i etycznym, nawet w obliczu prób ominięcia tych zasad poprzez sprytnie stworzone dane wejściowe użytkownika. Priorytetem komunikatów systemowych OpenAI ma na celu zwiększenie niezawodności i bezpieczeństwa modelu w różnych aplikacjach [1] [2].

Cytaty:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.pompthub.us/blog/everinging-system-messages-how-to-ususe-them-real-world-experiments-promp-inction-protectors
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited-to-free-users-and-even-plus-users-it-literally-brelely-lives-you-5-messages-in-5-6-hours-to-the-free-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-beginins-rolling-o-to-plus-and-team-users-nextweek-then-to-enterprise-and-edu-users-the-following Week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13N55W7/highly_efftitut_prompt_for_summarizing_gpt4/