GPT-4.5 Иерархия инструкций: обработка противоречивых сообщений

GPT-4.5 предназначен для обработки противоречивых инструкций между системой и пользовательскими сообщениями с помощью иерархии инструкций. Эта иерархия помогает модели определять приоритетные системы системных сообщений над сообщениями пользователя смягчить риски, связанные с противоречивыми подсказками, такими как быстрые инъекции или другие атаки, которые могут переопределить инструкции по безопасности модели.

Ключевые функции иерархии инструкций

1. Классификация сообщений: GPT-4.5 различает два типа сообщений: системные сообщения и сообщения пользователей. Системные сообщения считаются более высокими авторитетами и используются для определения руководящих принципов безопасности или конкретных инструкций для модели.

2. Разрешение конфликтов: когда системы конфликта системы и пользователей, GPT-4.5 обучается следовать инструкциям в системном сообщении. Это гарантирует, что модель придерживается руководящих принципов безопасности и не участвует в вредных или запрещенных действиях.

3. Оценка и обучение: модель оценивается по ее способности справляться с конфликтами с помощью различных сценариев. Например, в сценарии, в котором модель инструментаруется не отдавать ответ на математическую задачу (системное сообщение), и пользователь пытается обмануть его в этом (сообщение пользователя), GPT-4.5 должен сопротивляться попытке пользователя и следовать системной инструкции.

4. Тем не менее, существуют конкретные сценарии, в которых он может работать не так же хорошо, как GPT-4O или GPT-4O1, например, в некоторых тестах на джейлбрейк, где она обманута в раскрывающей информации, она не должна [1] [7].

Оценки безопасности

GPT-4.5 проходит строгие оценки безопасности, чтобы гарантировать, что он не генерирует запрещенный контент, такой как ненавистные или незаконные советы. Эти оценки также оценивают тенденцию модели переоценивать доброкачественные подсказки, связанные с темами безопасности. Производительность модели в этих областях имеет решающее значение для поддержания ее безопасности и надежности при обращении с конфликтующими инструкциями [1].

модели спецификации и уровня авторитета

Спецификация модели описывает уровни авторитета для различных типов инструкций, причем инструкции на уровне платформы имеют наивысший авторитет, за которым следует инструкции разработчика и пользователей. Эта иерархия гарантирует, что GPT-4.5 приоритет безопасности и придерживается руководящих принципов, в то же время позволяя пользователям и разработчикам настройки в пределах установленных границ [2] [5].

В целом, способность GPT-4.5 справляться с конфликтующими инструкциями является ключевым аспектом его дизайна, гарантируя, что она сохраняет безопасность и целостность, взаимодействуя с пользователями.

Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-pec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/

Как GPT-4.5 обрабатывает противоречивые инструкции между системой и пользовательскими сообщениями

Ключевые функции иерархии инструкций

Оценки безопасности

модели спецификации и уровня авторитета