GPT-4.5 предназначен для обработки противоречивых инструкций с помощью иерархии инструкций, которая приоритет системным сообщениям по сообщениям пользователей смягчить риски, такие как быстрые инъекции и другие атаки, переопределяющие инструкции по безопасности [1]. Однако, может ли GPT-4.5 адаптироваться к новым типам противоречивых инструкций, на которых он не был обучен, является сложным вопросом.
Обучение и оценка
GPT-4.5 был обучен с использованием новых методов надзора в сочетании с традиционными методами, такими как контролируемая тонкая настройка (SFT) и подкрепление, обучение от обратной связи человека (RLHF) [1]. Эти методы направлены на улучшение выравнивания модели с намерением пользователя и ее способностью следовать инструкциям более точно. Модель была оценена по различным сценариям, где конфликтуют системы и пользовательских сообщений, показывая улучшения по сравнению с предыдущими моделями, такими как GPT-4O [1].
Адаптивность к новым конфликтующим инструкциям
В то время как GPT-4.5 демонстрирует лучшую производительность при обработке известных типов конфликтующих инструкций, его способность адаптироваться к совершенно новым типам конфликтов зависит от нескольких факторов:
1. Обобщение возможностей: обучение GPT-4.5 включает в себя масштабирование неконтролируемого обучения, которое повышает его способность обобщать и понимать более широкие контексты [1]. Это потенциально может помочь ему распознать закономерности в новых противоречивых инструкциях.
2. Иерархия инструкций: иерархия инструкции модели предназначена для определения приоритетов системных сообщений, что помогает поддерживать безопасность и соблюдение предопределенных правил. Однако, если новые противоречивые инструкции выходят за рамки этой иерархии, модель может изо всех сил пытаться адаптироваться без дополнительного обучения или точной настройки.
3. Этот подход может помочь вывести поведение за пределы того, что модель была явно обучена [1].
4. Ограничения и оценки безопасности: Несмотря на улучшения, GPT-4.5 по-прежнему сталкивается с проблемами при обработке сложных или новых сценариев. Оценки безопасности показали, что, хотя модель хорошо выполняет известные задачи, всегда существует риск, чтобы она не следовала инструкциям в непредвиденных контекстах [1].
Заключение
В то время как GPT-4.5 более способен, чем его предшественники в обработке конфликтующих инструкций, его адаптивность к совершенно новым типам конфликтов ограничена своими учебными данными и дизайном. Это может потребовать дополнительной точной настройки или творческих стратегий побуждения для эффективной обработки новых сценариев. Продолжающиеся исследования и взаимодействие с пользователями с GPT-4.5 дадут больше информации о своих возможностях и ограничениях в этой области.
Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alenment-faking-in-large-language-models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significally_and/