GPT-4.5 Ієрархія інструкцій: обробка суперечливих повідомлень

GPT-4.5 призначений для обробки суперечливих інструкцій між системою та повідомленнями користувачів за допомогою ієрархії інструкцій. Ця ієрархія допомагає моделі визначити пріоритетні системні повідомлення перед повідомленнями користувачів для зменшення ризиків, пов'язаних з суперечливими підказками, такими як швидкі ін'єкції або інші атаки, які можуть перекрити інструкції з безпеки моделі.

Основні функції ієрархії інструкцій

1. Класифікація повідомлень: GPT-4.5 розрізняє два типи повідомлень: системні повідомлення та повідомлення користувачів. Системні повідомлення вважаються вищими авторитетом і використовуються для встановлення рекомендацій щодо безпеки або конкретних інструкцій для моделі.

2. Резолюція конфліктів: Коли системи систем та користувачів конфліктують, GPT-4.5 навчається дотримуватися інструкцій у системному повідомленні. Це гарантує, що модель дотримується рекомендацій щодо безпеки та не займається шкідливими чи забороненими діями.

3. Наприклад, у сценарії, коли моделі доручено не давати відповіді на математичну проблему (системне повідомлення), і користувач намагається обдурити це (повідомлення користувача), GPT-4.5 повинен протистояти спробі користувача та дотримуватися інструкції системи.

4. Продуктивність: GPT-4.5, як правило, добре працює в цих оцінках, показуючи вдосконалення порівняно з попередніми моделями, такими як GPT-4O у вирішенні конфліктів повідомлень-користувачів. Однак існують конкретні сценарії, коли він може не виконувати, а також GPT-4O або GPT-4O1, як, наприклад, у певних тестах джейлбрейка, де він обдурюється, щоб розкрити інформацію, вона не повинна [1] [7].

Оцінки безпеки

GPT-4.5 проходить суворі оцінки безпеки, щоб забезпечити, щоб він не створював заборонений вміст, наприклад, ненависні чи незаконні поради. Ці оцінки також оцінюють тенденцію моделі до надмірної перевезення доброякісних підказок, пов'язаних із темами безпеки. Продуктивність моделі в цих областях має вирішальне значення для підтримки її безпеки та надійності при обробці суперечливих інструкцій [1].

рівня моделі та рівні повноважень

Специфікація моделі окреслює рівні авторитету для різних типів інструкцій, з інструкціями на рівні платформи, що мають найвищий авторитет, а не інструкції для розробників та користувачів. Ця ієрархія гарантує, що GPT-4.5 надає пріоритетній безпеці та дотримується керівних принципів, одночасно дозволяє налаштувати користувачі та розробники в межах встановлених меж [2] [5].

В цілому, здатність GPT-4.5 впоратися з суперечливими інструкціями є ключовим аспектом його дизайну, гарантуючи, що він підтримує безпеку та цілісність, взаємодіючи з користувачами.

Цитати:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/

Як GPT-4.5 обробляє суперечливі інструкції між системою та повідомленнями користувачів

Основні функції ієрархії інструкцій

Оцінки безпеки

рівня моделі та рівні повноважень