GPT-4.5 використовує кілька методик для обробки суперечливих повідомлень, особливо через ієрархію інструкції. Ця ієрархія встановлює пріоритетне порядок для повідомлень, гарантуючи, що системні повідомлення надають пріоритет перед повідомленнями користувачів, історією розмови та результатами інструментів [1] [2].
Ієрархія інструкцій
1. Системні повідомлення проти повідомлень користувачів: GPT-4.5 навчається дотримуватися інструкцій у системних повідомленнях щодо суперечливих повідомлень користувачів. Це має вирішальне значення в сценаріях, коли входи користувачів можуть спробувати скасувати вказівки щодо безпеки або правила форматування, встановлені системою [1] [2].
2. Резолюція конфліктів: Модель оцінюється за її здатністю вирішувати конфлікти між різними типами повідомлень. Наприклад, якщо системне повідомлення доруує моделі не виявляти конкретну фразу чи пароль, а повідомлення користувача намагається обдурити модель для цього, GPT-4.5 призначений дотримуватися інструкцій системи [1].
3. Навчання та оцінка: GPT-4.5 проходить широку підготовку та оцінку, щоб переконатися, що він може обробляти складні сценарії, де конфлікти системи та користувачів. Сюди входять сценарії, коли модель повинна вибирати між дотриманням системної інструкції або запитом користувача, який суперечить їй [1] [2].
контролюється тонко-Tuning (SFT)
GPT-4.5 також використовує нагляд за тонкою настройкою (SFT), що передбачає навчання моделі на конкретних прикладах, де є суперечливі повідомлення. Ця методика допомагає вдосконалити здатність моделі розпізнавати та визначати пріоритетні інструкції системи перед входами користувачів, підвищуючи її продуктивність у обробці суперечливих сценаріїв [3].
Нові методи вирівнювання
Крім того, GPT-4.5 включає нові методи вирівнювання, які покращують його розуміння людських уподобань та намірів. Ці методи допомагають моделі краще інтерпретувати контекст та наміри, що стоять за системними, так і користувачами користувачів, що дозволяє їй приймати більш обґрунтовані рішення під час поводження з конфліктами [5].
Загалом, підхід GPT-4.5 до обробки суперечливих повідомлень поєднує в собі сучасні методи навчання з структурованою ієрархією інструкцій, щоб забезпечити пріоритетність безпеки та дотримання системних рекомендацій.
Цитати:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-structure/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significanty_and/