Ієрархія інструкцій GPT-4.5: пріоритет системних повідомлень для безпеки та безпеки

Як GPT-4.5 надає пріоритет системні повідомлення над повідомленнями користувачів

GPT-4.5 надає пріоритет системні повідомлення над повідомленнями користувачів за допомогою ієрархії інструкцій, яка призначена для зменшення ризику оперативних ін'єкцій та інших атак, які можуть перекрити інструкції з безпеки моделі. Ця ієрархія класифікує повідомлення на два основні типи: системні повідомлення та повідомлення користувачів. Системні повідомлення - це по суті приховані інструкції, які керують поведінкою AI, тоді як повідомлення користувачів - це входи, надані користувачами.

У GPT-4.5, коли системні та користувачі конфліктують, модель навчається дотримуватися інструкцій у системному повідомленні над повідомленнями користувача. Це досягається шляхом нагляду за моделлю на прикладах, де ці типи повідомлень конфліктують. Модель вчиться визначити пріоритетні системні повідомлення для забезпечення дотримання рекомендацій щодо безпеки та запобігання небажаних результатах.

Наприклад, якщо користувач намагається обдурити модель надати шкідливу інформацію, системне повідомлення може доручити моделі відмовитись від таких запитів. Здатність GPT-4.5 дотримуватися цієї ієрархії допомагає підтримувати стандарти безпеки та запобігти маніпулюванню моделі у генерацію забороненого вмісту.

Такий підхід має вирішальне значення для забезпечення того, щоб GPT-4.5 поводився послідовно зі своїми передбачуваними та етичними рекомендаціями, навіть коли стикається з спробами обійти ці правила через спритно створені введення користувачів. Відповідаючи на пріоритетні системи, OpenAI має на меті підвищити надійність та безпеку моделі в різних додатках [1] [2].

Цитати:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-messages-how-to-use-them-real-world-experiments-prompt-injector
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited-ther-free-sers-and-even-plus-users-it-literally-bare-gives-you-5-messages-in-6-hours-to-the-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-ut-to-plus-and-team-users-next-week-then-to- enterprise-and-edu-users-efullowing-week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligent-2/2025/openai-to-relase-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_effient_prompt_for_summarizing_gpt4/