GPT-4.5 Иерархия инструкций: приоритет системных сообщений для обеспечения безопасности и безопасности

Как GPT-4.5 определяет приоритеты системных сообщений по сообщениям пользователей

GPT-4.5 приоритет системным сообщениям по сообщениям пользователей с помощью иерархии инструкций, которая предназначена для снижения риска быстрых инъекций и других атак, которые могут переопределить инструкции по безопасности модели. Эта иерархия классифицирует сообщения на два основных типа: системные сообщения и сообщения пользователей. Системные сообщения - это по существу скрытые инструкции, которые направляют поведение ИИ, в то время как пользовательские сообщения - это входы, предоставляемые пользователями.

В GPT-4.5, когда в конфликте системы и пользовательских сообщений модель обучена следовать инструкциям в системном сообщении по сравнению с сообщениями пользователя. Это достигается путем надзора за моделью по примерам, когда эти типы сообщений находятся в конфликте. Модель учится определять приоритеты системных сообщений, чтобы обеспечить соблюдение руководящих принципов безопасности и предотвратить нежелательные результаты.

Например, если пользователь пытается обмануть модель в предоставление вредной информации, системное сообщение может дать указание модели отказать в таких запросах. Способность GPT-4.5 придерживаться этой иерархии помогает поддерживать стандарты безопасности и предотвращение манипулирования моделью в генерирование склонного содержания.

Этот подход имеет решающее значение для обеспечения того, чтобы GPT-4.5 ведет себя последовательно со своими предполагаемыми руководящими принципами безопасности и этическими принципами, даже при столкновении с попытками обойти эти правила с помощью умно созданных пользовательских входов. Расстанавливая приоритеты системных сообщений, OpenAI стремится повысить надежность и безопасность модели в различных приложениях [1] [2].

Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-message-how-to-use-them-real-world-experiments-prompt-incement-protectors
[3] https://platform.openai.com/docs/guides/prompt-ingineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limated-tare-users и evely-lus-users-it-literally-belly-you-5-messages-in-5-6-часа в Free-USERS/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-tount-to-plus-and-team-users-next-week-then-enterprise и edu-users-the-flowing-week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_effict_prompt_for_summarizing_gpt4/