Razumevanje hierarhije navodil GPT-4.5 za ublažitev hitrih tveganj za vbrizgavanje

Kako hierarhija pouka GPT-4.5 ublaži tveganje za hitre injekcije

Hierarhija pouka GPT-4.5 je zasnovana tako, da ublaži tveganje za takojšnje injekcije z določitvijo jasnega prednostnega vrstnega reda za različne vrste navodil. Ta hierarhija zagotavlja, da imajo sistemska sporočila, ki jih nastavijo razvijalci, prednost pred uporabniškimi sporočili in drugimi vhodi. Takole deluje in kako pomaga preprečiti hitre napade injiciranja:

Razumevanje hitrih injekcij

Hitri napadi vbrizgavanja se pojavijo, ko zlonamerni uporabniki manipulirajo z modeli AI z zagotavljanjem vhodov, ki preglasijo izvirna sistemska navodila. To lahko privede do nenamernega vedenja, kot je razkrivanje občutljivih informacij ali izvajanje nepooblaščenih dejanj [2] [3].

Hierarhija pouka

Hierarhija pouka v GPT-4.5 daje prednost navodilom na podlagi njihovega vira in pomena. Šteje vhode v več vrst, običajno vključuje:
- Sistemska sporočila: To so navodila za najvišjo prioriteto, ki jih postavljajo razvijalci. Določijo primarne naloge in omejitve, ki naj bi jih model sledil.
- Uporabniška sporočila: To so vhodi, ki jih nudijo uporabniki in se štejejo za nižje prednostno kot sistemsko sporočila.
- Zgodovina pogovorov in izhodi orodij: ti lahko vplivajo tudi na model, vendar so na splošno nižji od prednostnih nalog kot uporabniška sporočila [1] [3].

Ublažitve hitrih injekcij

Da bi ublažili hitre napade injiciranja, hierarhija pouka zagotavlja, da se GPT-4.5 drži naslednjih načel:
- Prednost: Model daje prednost sistemskim sporočilom prek uporabniških vhodov. Če uporabnik poskuša vbrizgati poziv, ki nasprotuje sistemskim navodilom, bo model privzel prvotno smernico [3] [5].
- Zaznavanje neurejenih pozivov: GPT-4.5 je usposobljen za prepoznavanje in ignoriranje pozivov, ki so v nasprotju z navodili sistema. Na primer, če uporabnik vnese "pozabi na vsa prejšnja navodila", bo model to prepoznal kot neupravičen poziv in ustrezno odgovoril [3].
-Selektivno ignoriranje navodil z nižjo prioriteto: Model je zasnovan tako, da selektivno ignorira navodila za nižjo prioriteto, kadar so v nasprotju z višjimi prioritemi. To zagotavlja, da model ohranja predvideno vedenje, tudi če se sooča z zlonamernimi vhodi [7].

Usposabljanje in ocenjevanje

GPT-4.5 je usposobljen s pomočjo tehnik, ki poudarjajo hierarhijo pouka, kot sta sintetična ustvarjanje podatkov in destilacija konteksta. Te metode pomagajo modelu, da se nauči učinkovito določiti navodila in se upreti zlonamernim vhodom [6] [7]. Učinkovitost modela je ovrednotena v scenarijih, kjer sistemska sporočila v nasprotju z uporabniškimi vnosi, kar zagotavlja, da se drži hierarhije pouka in ohranja svoje varnostne značilnosti [5].

Na splošno hierarhija pouka v GPT-4.5 poveča varnost modela z zagotavljanjem, da sledi predvidenim navodilom, ki jih postavljajo razvijalci, tudi ob nasprotujočih si ali zlonamernih vnosih uporabnikov. Ta pristop je ključnega pomena za gradnjo zaupanja vrednih sistemov AI, ki lahko varno delujejo v aplikacijah v resničnem svetu.

Navedbe:
[1] https://arxiv.org/html/2502.08745V1
[2] https://www.aporia.com/learn/prompt-iniction-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/Protecting-against-prompTinement-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-from-prompt-injenosti-and-jailbreaks-new-penai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538V2