GPT-4.5: улучшенная производительность в обращении с конфликтующими инструкциями

Как производительность GPT-4.5 сравнивается с более ранними версиями при обращении с конфликтующими инструкциями

GPT-4.5 демонстрирует улучшенную производительность при обработке конфликтующих инструкций по сравнению с более ранними версиями, особенно благодаря ее улучшенной иерархии инструкции. Эта функция позволяет модели определять приоритеты системных сообщений по сравнению с входами пользователей, смягчая риски, связанные с быстрыми инъекциями и другими атаками, которые могут переопределить инструкции по безопасности.

В оценках, связанных с противоречивыми типами сообщений, GPT-4.5 обычно превосходит GPT-4O. Модель обучена следовать инструкциям в сообщении с наивысшим приоритетом, что помогает в сценариях, в которых конфликтуют системы и пользовательских сообщений. Например, в сценарии, когда модели инструментально не отдавать ответ на математический вопрос, GPT-4.5 показывает лучшее соблюдение этих системных инструкций по сравнению с GPT-4O, хотя он не превосходит GPT-4O1 во всех оценках [1].

Кроме того, GPT-4.5 был оценен в сценариях, где он должен защищать определенные фразы или пароли от раскрытия с помощью пользовательских подсказок. В этих оценках GPT-4.5 работает хорошо, указывая на его способность поддерживать безопасность и следовать системным инструкциям, даже когда они сталкиваются с противоречивыми пользовательскими входами [1].

Однако, хотя GPT-4.5 улучшает более ранние модели при обращении с конфликтующими инструкциями, он все еще сталкивается с проблемами в определенных сложных сценариях. Производительность модели в Red Teaming Evallions, которые имитируют подсказку о состязании, показывает, что в некоторых случаях она может производить небезопасные результаты, хотя обычно она работает лучше, чем GPT-4O в этих сложных тестах [1].

В целом, усовершенствования GPT-4.5 в обращении с конфликтующими инструкциями делают его более надежным выбором для приложений, требующих строгого соблюдения руководящих принципов безопасности и системных инструкций.

Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compareed
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-diffferences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significally_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-resisioning