Как GPT-4.5 обрабатывает противоречивые сообщения с иерархией инструкции и тонкой настройкой

GPT-4.5 использует несколько методов для обработки противоречивых сообщений, особенно благодаря своей системе иерархии инструкций. Эта иерархия устанавливает приоритетный порядок сообщений, гарантируя, что системные сообщения расставляют приоритеты в отношении сообщений пользователя, истории разговоров и выходов инструментов [1] [2].

Иерархия инструкции

1. Системные сообщения против сообщений пользователя: GPT-4.5 обучается следовать инструкциям в системных сообщениях над противоречивыми сообщениями пользователя. Это имеет решающее значение в сценариях, когда пользовательские входы могут попытаться переопределить рекомендации по безопасности или правила форматирования, установленные системой [1] [2].

2. Разрешение конфликтов: модель оценивается по ее способности разрешать конфликты между различными типами сообщений. Например, если системное сообщение инструктирует модель не раскрывать определенную фразу или пароль, а сообщение пользователя пытается обмануть модель в это, GPT-4.5 предназначен для придерживании инструкций системного сообщения [1].

3. Обучение и оценка: GPT-4.5 подвергается обширному обучению и оценке, чтобы убедиться, что он может справиться с сложными сценариями, в которых конфликт системы и пользовательских сообщений. Это включает в себя сценарии, в которых модель должна выбирать между выполнением системной инструкции или запросом пользователя, который противоречит ей [1] [2].

Настройка тонкой настройки (SFT)

GPT-4.5 также использует контролируемую точную настройку (SFT), которая включает в себя обучение модели по конкретным примерам, где присутствуют конфликтующие сообщения. Этот метод помогает улучшить способность модели распознавать и определять приоритеты системных инструкций по сравнению с пользовательскими входами, повышая ее производительность при обработке конфликтных сценариев [3].

новые методы выравнивания

Кроме того, GPT-4.5 включает в себя новые методы выравнивания, которые улучшают его понимание человеческих предпочтений и намерений. Эти методы помогают модели лучше интерпретировать контекст и намерения как системных, так и пользовательских сообщений, что позволяет ей принимать более обоснованные решения при обращении с конфликтами [5].

В целом, подход GPT-4.5 к обработке конфликтующих сообщений объединяет передовые методы обучения с структурированной иерархией инструкций, чтобы гарантировать, что модель приоритет безопасности и соблюдению руководящих принципов системы.

Цитаты:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-heres-how-good-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-tput-length-and-ructure/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significally_and/

Какие конкретные методы используют GPT-4.5 для обработки противоречивых сообщений

Иерархия инструкции

Настройка тонкой настройки (SFT)

новые методы выравнивания