Ієрархія інструкцій GPT-4.5 призначена для пом'якшення ризику оперативних ін'єкцій шляхом встановлення чіткого наказу про пріоритет для різних типів інструкцій. Ця ієрархія гарантує, що системні повідомлення, встановлені розробниками, мають перевагу над повідомленнями користувачів та іншими входами. Ось як це працює і як це допомагає запобігти оперативному атаці впорскування:
Розуміння оперативних ін'єкцій
Напручні атаки ін'єкцій трапляються, коли зловмисні користувачі маніпулюють моделями AI, надаючи входи, що перекривають оригінальні інструкції системи. Це може призвести до ненавмисної поведінки, наприклад, розкриття конфіденційної інформації або виконання несанкціонованих дій [2] [3].Ієрархія інструкцій
Ієрархія інструкцій у GPT-4.5 надає пріоритет інструкціям на основі їх джерела та важливості. Він класифікує входи на кілька типів, як правило, включаючи:- Системні повідомлення: Це інструкції з найвищого пріоритету, встановлені розробниками. Вони визначають первинні завдання та обмеження, які повинна дотримуватися моделі.
- Повідомлення користувачів: Це входи, надані користувачами, і вважаються нижчими за пріоритетними, ніж системні повідомлення.
- Історія розмови та виходи інструментів: вони також можуть впливати на модель, але, як правило, нижчі за пріоритетними, ніж повідомлення користувачів [1] [3].
Пом'якшення оперативних ін'єкцій
Для пом'якшення оперативних нападів ін'єкцій ієрархія інструкцій гарантує, що GPT-4.5 дотримується таких принципів:- Пріоритетність: Модель надає пріоритет системні повідомлення над входами користувачів. Якщо користувач намагається ввести підказку, що суперечить системним інструкціям, модель за замовчуванням буде за замовчуванням до початкового керівництва [3] [5].
- Виявлення нерівних підказок: GPT-4.5 навчається ідентифікувати та ігнорувати підказки, що суперечать системним інструкціям. Наприклад, якщо користувач вводить "забудьте всі попередні інструкції", модель визнає це як нерівномірне підказку та відповідати відповідно [3].
-Селективне ігнорування інструкцій з нижчим пріоритетом: Модель призначена для вибіркового ігнорування інструкцій з нижчим пріоритетом, коли вони конфліктують з вищими пріоритетами. Це гарантує, що модель підтримує свою призначену поведінку, навіть коли стикається з шкідливими входами [7].
Навчання та оцінка
GPT-4.5 навчається за допомогою методів, що підкреслюють ієрархію інструкцій, такі як синтетичні дані та контиляція контексту. Ці методи допомагають моделі навчитися ефективно визначати пріоритетні інструкції та протистояти шкідливим входам [6] [7]. Продуктивність моделі оцінюється в сценаріях, коли системні повідомлення суперечать входам користувачів, гарантуючи, що вона дотримується ієрархії інструкцій та підтримує її функції безпеки [5].В цілому, ієрархія інструкцій у GPT-4.5 підвищує безпеку моделі, гарантуючи, що вона відповідає передбачуваним інструкціям, встановленим розробниками, навіть в умовах суперечливих або шкідливих введення користувачів. Цей підхід має вирішальне значення для створення надійних систем AI, які можуть безпечно працювати в реальних програмах.
Цитати:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-injection-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-індукція-hierarchy
[4] https://dev.to/jasny/protecting-against-prompt-injection-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-from-prompt-injections-and-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2