Suprasti GPT-4.5 instrukcijų hierarchiją, siekiant sušvelninti greitos injekcijos riziką

Kaip GPT-4.5 instrukcijų hierarchija sumažina greitų injekcijų riziką

GPT-4.5 instrukcijų hierarchija yra skirta sušvelninti greitų injekcijų riziką, nustatant aiškų prioritetinę tvarką įvairių tipų instrukcijoms. Ši hierarchija užtikrina, kad sistemos pranešimai, kuriuos nustato kūrėjai, turi viršenybę prieš vartotojo pranešimus ir kitas įvestis. Štai kaip tai veikia ir kaip tai padeda išvengti greitų injekcijų atakų:

Suprasti greitas injekcijas

Greitos įpurškimo atakos įvyksta, kai kenksmingi vartotojai manipuliuoja AI modeliais, pateikdami įvestis, nepaisydami originalių sistemos instrukcijų. Tai gali sukelti nenumatytą elgesį, pavyzdžiui, atskleisti neskelbtiną informaciją ar atlikti neteisėtus veiksmus [2] [3].

Instrukcijų hierarchija

Instrukcijų hierarchija GPT-4.5 teikia pirmenybę instrukcijoms, pagrįstoms jų šaltiniu ir svarbumu. Jis suskirsto įvestis į keletą tipų, paprastai įskaitant:
- Sistemos pranešimai: Tai yra aukščiausios prioriteto instrukcijos, kurias nustato kūrėjai. Jie apibrėžia pirmines užduotis ir apribojimus, kurių turėtų laikytis modelio.
- Vartotojo pranešimai: Tai yra vartotojų pateiktos įvestys ir laikomos mažesniais prioritetiniais nei sistemos pranešimai.
- Pokalbių istorija ir įrankių išėjimai: Tai taip pat gali turėti įtakos modeliui, tačiau paprastai yra mažesni nei vartotojo pranešimai [1] [3].

Smulkinant greitas injekcijas

Siekdama sušvelninti greitų injekcijų išpuolius, instrukcijų hierarchija užtikrina, kad GPT-4.5 laikysis šių principų:
- Prioritetų nustatymas: modelis teikia prioritetą sistemos pranešimams, o ne vartotojo įvestims. Jei vartotojas bandys įšvirkšti raginimą, prieštaraujantį sistemos instrukcijoms, modelis numatytų pradinių nurodymų numatytąją vietą [3] [5].
- Netinkamai suderintų raginimų aptikimas: GPT-4.5 yra mokomas nustatyti ir ignoruoti raginimus, kurie prieštarauja sistemos instrukcijoms. Pvz., Jei vartotojo įvestis „pamiršti visas ankstesnes instrukcijas“, modelis tai atpažins kaip netinkamą raginimą ir atitinkamai reaguos [3].
-Selektyvus mažesnio prioriteto instrukcijų ignoravimas: modelis yra skirtas selektyviai ignoruoti mažesnio prioriteto instrukcijas, kai jie prieštarauja didesnio prioriteto. Tai užtikrina, kad modelis išlaiko numatytą elgesį net ir susidūręs su kenkėjiškomis įvestimis [7].

mokymas ir vertinimas

GPT-4.5 yra mokomas naudojant metodus, kurie pabrėžia instrukcijų hierarchiją, tokią kaip sintetiniai duomenų generavimas ir distiliavimas kontekste. Šie metodai padeda modeliui išmokti veiksmingai prioritetuoti instrukcijas ir atsispirti kenksmingoms įvestims [6] [7]. Modelio našumas įvertinamas scenarijuose, kai sistemos pranešimai prieštarauja vartotojo įvestims, užtikrinant, kad jis laikosi instrukcijų hierarchijos ir išlaiko savo saugumo funkcijas [5].

Apskritai, instrukcijų hierarchija GPT-4.5 padidina modelio saugumą užtikrinant, kad ji atitiktų numatytas kūrėjų nustatytas instrukcijas, net susidūrę su prieštaringais ar kenksmingais vartotojo įvestimis. Šis požiūris yra labai svarbus kuriant patikimas AI sistemas, kurios gali saugiai veikti realiame pasaulyje.

Citatos:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-inject-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini instruction-hierarchy
[4] https://dev.to/jasny/protecting-against-prompt-innection-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-from-prompt-injctions-and-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2