Иерархия инструкций GPT-4.5 предназначена для снижения риска быстрых инъекций путем установления четкого приоритета для различных типов инструкций. Эта иерархия гарантирует, что системные сообщения, которые устанавливаются разработчиками, имели приоритет над сообщениями пользователей и другими входами. Вот как это работает и как это помогает предотвратить быстрые атаки впрыска:
Понимание оперативных инъекций
Обратные инъекционные атаки происходят, когда вредоносные пользователи манипулируют моделями искусственного интеллекта, предоставляя входы, которые переопределяют исходные системы системных инструкций. Это может привести к непреднамеренному поведению, таким как выявление конфиденциальной информации или выполнение несанкционированных действий [2] [3].Иерархия инструкции
Иерархия инструкций в GPT-4.5 приоритет инструкциям, основанным на их источнике и важности. Он классифицирует входные данные на несколько типов, как правило, включая:- Системные сообщения: это инструкции с самым высоким приоритетом, установленные разработчиками. Они определяют первичные задачи и ограничения, которыми должна следовать модель.
- Сообщения пользователя: это входные данные, предоставляемые пользователями, и считаются ниже приоритета, чем системные сообщения.
- История разговора и выходы инструментов: они также могут влиять на модель, но, как правило, ниже приоритета, чем сообщения пользователей [1] [3].
Смягчение оперативных инъекций
Чтобы смягчить быстрые атаки впрыска, иерархия инструкций гарантирует, что GPT-4.5 придерживается следующих принципов:- Приоритизация: модель приоритет системным сообщениям над пользовательскими входами. Если пользователь пытается ввести подсказку, которая противоречит системным инструкциям, модель по умолчанию будет по умолчанию с исходным руководством [3] [5].
- Обнаружение смещенных подсказок: GPT-4.5 обучается идентифицировать и игнорировать подсказки, которые противоречат системным инструкциям. Например, если пользователь вводит «Забудьте все предыдущие инструкции», модель признает это как смещенное подсказку и ответит соответствующим образом [3].
-Селективное игнорирование инструкций с более низким приоритетом: модель предназначена для избирательного игнорирования инструкций с более низким приоритетом, когда они конфликтуют с более высокими приоритетными. Это гарантирует, что модель сохраняет свое предполагаемое поведение, даже когда сталкивается со злонамеренными входами [7].
Обучение и оценка
GPT-4.5 обучается с использованием методов, которые подчеркивают иерархию инструкции, такие как генерация синтетических данных и дистилляция контекста. Эти методы помогают модели научиться эффективно определять инструкции и противостоять вредоносным входам [6] [7]. Производительность модели оценивается в сценариях, где системные сообщения вступают в конфликт с вводами пользователей, гарантируя, что она придерживается иерархии инструкций и сохраняет свои функции безопасности [5].В целом, иерархия инструкций в GPT-4.5 повышает безопасность модели, гарантируя, что она следует за предполагаемыми инструкциями, установленными разработчиками, даже перед лицом противоречивых или злонамеренных пользовательских вводов. Этот подход имеет решающее значение для создания надежных систем ИИ, которые могут безопасно работать в реальных приложениях.
Цитаты:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-nection-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/protecting-against-prompt-incement-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/proting-llms-from-prompt-injections-and-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2