GPT-4.5: обробка конфліктних інструкцій та адаптивності

GPT-4.5 призначений для обробки суперечливих інструкцій за допомогою ієрархії інструкцій, яка надає пріоритет системних повідомлень над повідомленнями користувачів для зменшення ризиків, таких як оперативні ін'єкції та інші атаки, що переважають інструкції з безпеки [1]. Однак, чи може GPT-4.5 адаптуватися до нових типів конфліктних інструкцій, на яких він не навчався, є складним питанням.

Навчання та оцінка

GPT-4.5 пройшов навчання за допомогою нових методів нагляду в поєднанні з традиційними методами, такими як нагляд за тонкою настройкою (SFT) та підкріпленням навчання з зворотного зв’язку людини (RLHF) [1]. Ці методи мають на меті покращити узгодження моделі з наміром користувача та його здатністю більш точно дотримуватися інструкцій. Модель була оцінена за різними сценаріями, де конфлікти системи та користувачів, що показують вдосконалення порівняно з попередніми моделями, такими як GPT-4O [1].

Пристосованість до нових конфліктних інструкцій

Хоча GPT-4.5 демонструє кращу продуктивність у обробці відомих типів конфліктних інструкцій, його здатність адаптуватися до абсолютно нових типів конфліктів залежить від декількох факторів:

1. Можливості узагальнення: навчання GPT-4.5 включає масштабування без нагляду навчання, що підвищує його здатність узагальнювати та розуміти більш широкі контексти [1]. Це потенційно може допомогти йому розпізнати закономірності в нових конфліктних інструкціях.

2. Ієрархія інструкцій: Ієрархія інструкцій моделі призначена для визначення пріоритетних системних повідомлень, що допомагає підтримувати безпеку та дотримання заздалегідь визначених правил. Однак, якщо нові суперечливі інструкції виходять за межі цієї ієрархії, модель може боротися за адаптацію без додаткової підготовки чи тонкої настройки.

3. Швидке інженерія та ліси: Користувачі можуть використовувати розширені методи підказки або ліси, щоб направити модель до розуміння та дотримання нових інструкцій. Цей підхід може допомогти викликати поведінку поза тим, що модель явно навчалася для [1].

4. Обмеження та оцінки безпеки: Незважаючи на вдосконалення, GPT-4.5 все ще стикається з проблемами у поводженні з складними чи новими сценаріями. Оцінки безпеки показали, що, хоча модель добре виконує відомі завдання, завжди існує ризик її не дотримуватися інструкцій у непередбачених контекстах [1].

Висновок

Незважаючи на те, що GPT-4.5 є більш здатним, ніж його попередники в обробці суперечливих інструкцій, його пристосованість до абсолютно нових типів конфліктів обмежена своїми навчальними даними та дизайном. Це може зажадати додаткових стратегій тонкої настройки або креативних спонукань до ефективного поводження з новими сценаріями. Постійні дослідження та взаємодія користувачів з GPT-4.5 дадуть більше розуміння його можливостей та обмежень у цій галузі.

Цитати:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2.
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-following-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_release_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significanty_and/

Чи може GPT-4.5 адаптуватися до нових типів конфліктних інструкцій, на яких він не навчався

Навчання та оцінка

Пристосованість до нових конфліктних інструкцій

Висновок