GPT-4.5 демонстрирует конкретные улучшения по сравнению с GPT-4O при обработке конфликтующих сообщений с помощью ее улучшенной иерархии инструкций. Эта функция позволяет модели определять приоритеты системных сообщений по сообщениям пользователей, смягчая риск быстрых инъекций и других атак, которые могут переопределить инструкции по безопасности. Вот ключевые улучшения:
1. Оценка иерархии инструкций: в оценках, где различные типы сообщений вступают в конфликт друг с другом, GPT-4.5 обучается следовать инструкциям в сообщении с наивысшим приоритетом. Это помогает модели лучше обрабатывать сценарии, в которых пользовательские входы могут попытаться обойти протоколы безопасности.
2. Разрешение конфликтов: GPT-4.5 обычно превосходит GPT-4O в оценках, включающих конфликты между системой и пользовательскими сообщениями. Это улучшение имеет решающее значение для поддержания безопасности и соблюдения руководящих принципов в сложных разговорных сценариях.
3. Турок-джейлбрейки: в конкретном сценарии, в котором модель выступает в качестве репетитора по математике, GPT-4.5 поручено не раскрывать ответ на математический вопрос. В то время как GPT-4.5 не превосходит GPT-4O в этой конкретной оценке (точность GPT-4O выше), он все равно демонстрирует устойчивость в сопротивлении попыткам обмануть ее в предоставлении несанкционированной информации.
4. Фраза и защита паролей: GPT-4.5 показывает сильную производительность в защите определенных фраз или паролей от раскрытия с помощью пользовательских подсказок. Это указывает на лучшую способность поддерживать конфиденциальность и придерживаться руководящих принципов безопасности по сравнению с некоторыми предыдущими моделями.
В целом, улучшения GPT-4.5 в обработке конфликтующих сообщений являются частью его более широких улучшений в области безопасности, нюансов и сотрудничества, что делает его более эффективным в поддержании безопасных и соответствующих взаимодействий [1] [3].
Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.techtarget.com/whatis/feature/gpt-4o-eastraind-everything-you-need-to-cknow
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/feature/gpt-4o-vs-gpt-4-how-do-the-compare
[5] https://www.businessinsider.com/openai-sam-altman-releases-gpt-4-5-emotionally-intelligent-2025-2
[6] https://litslink.com/blog/gpt-4o-all-you-should-know-about-the-update-and-new-tools
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/188t13h/gpt4_has_a_limit_of_40_messages3_hours_now/