Улучшения GPT-4.5 в обращении с конфликтующими инструкциями и улучшениями безопасности

Как производительность GPT-4.5 сравнивается с более ранними версиями при обращении с конфликтующими инструкциями

GPT-4.5 демонстрирует улучшенную производительность при обработке конфликтующих инструкций по сравнению с более ранними версиями, особенно благодаря ее улучшенной соблюдению иерархии инструкций. Эта иерархия позволяет модели определять приоритеты системных сообщений над пользовательскими входами, снижая риски из конфликтующих подсказок. При оценках GPT-4.5 обычно превосходит GPT-4O в сценариях, где системные и пользовательские сообщения конфликтуют, что указывает на лучшую способность следовать инструкциям по безопасности и избежать обмана состязательными подсказками [1] [5].

Улучшения ключей в обращении с конфликтующими инструкциями

1. Оценка иерархии инструкций: GPT-4.5 показывает повышенную точность в следующих системных инструкциях по сообщениям пользователей. Например, в сценарии, в котором модели инструментаруется не отдавать ответ на математический вопрос, GPT-4.5 работает лучше, чем GPT-4O, хотя и не так же хорошо, как GPT-4O1 [1].

2. Смягчение быстрых инъекций: путем приоритета системных сообщений GPT-4.5 снижает риск быстрых инъекций и других атак, которые могут переопределить его инструкции по безопасности. Это имеет решающее значение для поддержания целостности модели и предотвращения неправильного использования [1] [5].

3. Реалистичные сценарии: в более реалистичных сценариях, таких как, когда вы действуете в качестве репетитора по математике, GPT-4.5 лучше сопротивляться попыткам обмануть ее в предоставлении несанкционированной информации. Однако его производительность не идеальна и может варьироваться в зависимости от конкретного контекста и предоставленных инструкций [1].

4. Оценки безопасности: GPT-4.5 проходит строгие оценки безопасности, чтобы гарантировать, что она не соответствует запросам на вредное содержание. Хотя он хорошо работает в отказе от небезопасного содержания, он может переоборудовать больше, чем более ранние модели, указывая на осторожный подход к обработке неоднозначных или потенциально рискованных подсказок [1].

В целом, GPT-4.5 предлагает значительные улучшения в обращении с конфликтующими инструкциями, придерживаясь более внимательно к руководящим принципам системы и снижению влияния входов пользователей состязания. Однако, как и все модели ИИ, он не застрахован от всех форм манипуляций и продолжает развиваться с постоянными оценками и обновлениями безопасности [1] [5].

Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compareed
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-diffferences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significally_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-resisioning