Izpratne par GPT-4.5 instrukciju hierarhiju, lai mazinātu tūlītēju injekcijas risku

Kā GPT-4.5 instrukciju hierarhija mazina tūlītēju injekciju risku

GPT-4.5 instrukciju hierarhija ir paredzēta, lai mazinātu tūlītēju injekciju risku, izveidojot skaidru prioritāru secību dažādiem instrukcijām. Šī hierarhija nodrošina, ka sistēmas ziņojumi, kurus nosaka izstrādātāji, ir prioritāte salīdzinājumā ar lietotāja ziņojumiem un citām ieejām. Lūk, kā tas darbojas un kā tas palīdz novērst tūlītēju injekcijas uzbrukumus:

Izpratne par ātru injekciju izpratni

Ātri injekcijas uzbrukumi notiek, ja ļaunprātīgi lietotāji manipulē ar AI modeļiem, nodrošinot ieejas, kas ignorē sākotnējās sistēmas instrukcijas. Tas var izraisīt neparedzētu uzvedību, piemēram, sensitīvas informācijas atklāšana vai neatļautu darbību veikšana [2] [3].

instrukciju hierarhija

Instrukciju hierarhija GPT-4.5 prioritizē norādījumus, pamatojoties uz to avotu un nozīmi. Tas kategorizē ieejas vairākos veidos, parasti ieskaitot:
- Sistēmas ziņojumi: Šīs ir izstrādātāju noteiktās augstākās prioritātes instrukcijas. Viņi definē galvenos uzdevumus un ierobežojumus, kas modelim jāievēro.
- Lietotāja ziņojumi: tās ir lietotāji sniegtās ieejas, un tās tiek uzskatītas par zemākām prioritātēm nekā sistēmas ziņojumi.
- Sarunu vēsture un rīku rezultāti: tie var arī ietekmēt modeli, bet parasti ir zemāki prioritārie nekā lietotāja ziņojumi [1] [3].

Mazinot tūlītēju injekcijas

Lai mazinātu tūlītēju injekcijas uzbrukumus, instrukciju hierarhija nodrošina, ka GPT-4.5 ievēro šādus principus:
- prioritāšu noteikšana: modelis prioritizē sistēmas ziņojumus, salīdzinot ar lietotāja ievadiem. Ja lietotājs mēģina ievadīt uzvedni, kas ir pretrunā ar sistēmas instrukcijām, modelis noklusē sākotnējās norādes [3] [5].
- Nepareizu uzvedņu noteikšana: GPT-4.5 ir apmācīts identificēt un ignorēt uzvednes, kas ir pretrunā ar sistēmas instrukcijām. Piemēram, ja lietotājs ievada "aizmirst visas iepriekšējās instrukcijas", modelis to atpazīs kā nepareizu uzvedni un attiecīgi atbildēs [3].
-Selektīva zemākas prioritātes instrukciju ignorēšana: modelis ir paredzēts, lai selektīvi ignorētu zemākas prioritātes instrukcijas, kad tie ir pretrunā ar augstākas prioritātes. Tas nodrošina, ka modelis saglabā paredzēto izturēšanos pat tad, ja saskaras ar ļaunprātīgu ieguldījumu [7].

Apmācība un novērtēšana

GPT-4.5 tiek apmācīts, izmantojot paņēmienus, kas uzsver instrukciju hierarhiju, piemēram, sintētisko datu ģenerēšanu un konteksta destilāciju. Šīs metodes palīdz modelim iemācīties efektīvi noteikt norādījumus un pretoties ļaunprātīgām ieejām [6] [7]. Modeļa veiktspēja tiek novērtēta scenārijos, kad sistēmas ziņojumi ir pretrunā ar lietotāju ievadiem, nodrošinot, ka tā ievēro instrukciju hierarhiju un uztur tās drošības funkcijas [5].

Kopumā GPT-4.5 instrukciju hierarhija uzlabo modeļa drošību, nodrošinot, ka tā seko izstrādātāju paredzētajām instrukcijām, pat ņemot vērā pretrunīgās vai ļaunprātīgās lietotāja ieejas. Šī pieeja ir būtiska, lai veidotu uzticamas AI sistēmas, kuras var droši darboties reālās pasaules lietojumprogrammās.

Atsauces:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-injefect-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/protecting-against-prompt-injection-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6.]
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2