GPT-4.5 Instruksjonshierarki: Prioritering av systemmeldinger for sikkerhet og sikkerhet

Hvordan prioriterer GPT-4.5 systemmeldinger fremfor brukermeldinger

GPT-4.5 prioriterer systemmeldinger fremfor brukermeldinger gjennom et instruksjonshierarki, som er designet for å dempe risikoen for hurtig injeksjoner og andre angrep som kan overstyre modellens sikkerhetsinstruksjoner. Dette hierarkiet klassifiserer meldinger i to hovedtyper: systemmeldinger og brukermeldinger. Systemmeldinger er hovedsakelig skjulte instruksjoner som styrer AIs oppførsel, mens brukermeldinger er inngangene som er gitt av brukere.

I GPT-4.5, når system- og brukermeldinger er i konflikt, er modellen opplært til å følge instruksjonene i systemmeldingen over de i brukermeldingen. Dette oppnås ved å føre tilsyn med modellen på eksempler der denne typen meldinger er i konflikt. Modellen lærer å prioritere systemmeldinger for å sikre overholdelse av sikkerhetsretningslinjer og for å forhindre uønskede utganger.

For eksempel, hvis en bruker prøver å lure modellen til å gi skadelig informasjon, kan systemmeldingen instruere modellen om å nekte slike forespørsler. GPT-4.5s evne til å følge dette hierarkiet hjelper til med å opprettholde sikkerhetsstandarder og forhindre at modellen blir manipulert til å generere ikke tillatt innhold.

Denne tilnærmingen er avgjørende for å sikre at GPT-4.5 oppfører seg konsekvent med sin tiltenkte sikkerhet og etiske retningslinjer, selv når den blir møtt med forsøk på å omgå disse reglene gjennom smart laget brukerinnganger. Ved å prioritere systemmeldinger, har Openai som mål å forbedre modellens pålitelighet og sikkerhet i forskjellige applikasjoner [1] [2].

Sitasjoner:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-medages-how-to-use-them-real-world-experiments-prompt-injection-protectors
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited-to-free-user-and-jeven-plus-eiers-t-it-Litert-Barely-Gives-you-5-Messages-in-5-6-times-to-thee-free-bruker/766552
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-out-to-plus-and-team-users-next-week-then-to-enterprise-and-edu-user-the-following-week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-tin-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_efficient_prompt_for_summarizing_gpt4/