Forstå GPT-4.5s instruksjonshierarki for å dempe hurtig injeksjonsrisiko

Hvordan reduserer GPT-4.5s instruksjonshierarki risikoen for hurtiginjeksjoner

GPT-4.5s instruksjonshierarki er designet for å dempe risikoen for hurtig injeksjoner ved å etablere en klar prioritert ordre for forskjellige typer instruksjoner. Dette hierarkiet sikrer at systemmeldinger, som er satt av utviklere, har forrang for brukermeldinger og andre innspill. Slik fungerer det og hvordan det hjelper til med å forhindre hurtig injeksjonsangrep:

Forstå hurtig injeksjoner

Hurtig injeksjonsangrep oppstår når ondsinnede brukere manipulerer AI -modeller ved å tilby innganger som overstyrer de originale systeminstruksjonene. Dette kan føre til utilsiktet atferd, for eksempel å avsløre sensitiv informasjon eller utføre uautoriserte handlinger [2] [3].

Instruksjonshierarkiet

Instruksjonshierarkiet i GPT-4.5 prioriterer instruksjoner basert på deres kilde og betydning. Den kategoriserer innganger i flere typer, vanligvis inkludert:
- Systemmeldinger: Dette er instruksjonene med høyest prioritet satt av utviklere. De definerer de primære oppgavene og begrensningene som modellen skal følge.
- Brukermeldinger: Dette er innspill levert av brukere og anses som lavere i prioritet enn systemmeldinger.
- Samtalehistorikk og verktøyutganger: Disse kan også påvirke modellen, men er generelt lavere i prioritet enn brukermeldinger [1] [3].

Mitigering av hurtig injeksjoner

For å dempe hurtig injeksjonsangrep sikrer instruksjonshierarkiet at GPT-4.5 fester seg til følgende prinsipper:
- Prioritering: Modellen prioriterer systemmeldinger fremfor brukerinnganger. Hvis en bruker prøver å injisere en ledetekst som motsier systeminstruksjonene, vil modellen standard være den opprinnelige veiledningen [3] [5].
- Påvisning av feiljusterte spørsmål: GPT-4.5 er opplært til å identifisere og ignorere spørsmål som er i konflikt med systeminstruksjonene. For eksempel, hvis en bruker legger inn "glem alle tidligere instruksjoner", vil modellen gjenkjenne dette som en feiljustert ledetekst og svare deretter [3].
-Selektiv ignorering av instruksjoner med lavere prioritet: Modellen er designet for å selektivt ignorere instruksjoner med lavere prioritet når de er i konflikt med høyere prioritet. Dette sikrer at modellen opprettholder sin tiltenkte oppførsel selv når den blir møtt med ondsinnede innganger [7].

Trening og evaluering

GPT-4.5 er opplært ved hjelp av teknikker som understreker instruksjonshierarkiet, for eksempel syntetisk dataperering og kontekstdestillasjon. Disse metodene hjelper modellen med å lære å prioritere instruksjoner effektivt og motstå ondsinnede innganger [6] [7]. Modellens ytelse blir evaluert i scenarier der systemmeldinger er i konflikt med brukerinnganger, og sikrer at den holder seg til instruksjonshierarkiet og opprettholder sikkerhetsfunksjonene [5].

Totalt sett forbedrer instruksjonshierarkiet i GPT-4.5 modellens sikkerhet ved å sikre at det følger de tiltenkte instruksjonene satt av utviklere, selv i møte med motstridende eller ondsinnede brukerinnganger. Denne tilnærmingen er avgjørende for å bygge pålitelige AI-systemer som kan fungere trygt i applikasjoner i den virkelige verden.

Sitasjoner:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-injection-types-prevention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchy
[4] https://dev.to/jasny/protecting-ainst-prompt-injection-in-gpt-1GF8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-lms-from-prompt-injections-and-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2