GPT-4.5 Instruktionshierarki: Prioritering af systemmeddelelser til sikkerhed og sikkerhed

Hvordan prioriterer GPT-4.5 systemmeddelelser frem for brugerbeskeder

GPT-4.5 prioriterer systemmeddelelser frem for brugerbeskeder gennem et instruktionshierarki, som er designet til at afbøde risikoen for hurtige injektioner og andre angreb, der kan tilsidesætte modellens sikkerhedsinstruktioner. Dette hierarki klassificerer meddelelser i to hovedtyper: systemmeddelelser og brugerbeskeder. Systemmeddelelser er i det væsentlige skjulte instruktioner, der styrer AI's opførsel, mens brugerbeskeder er de input, som brugerne leverer.

I GPT-4.5, når system- og brugerbeskeder er i konflikt, trænes modellen til at følge instruktionerne i systemmeddelelsen over dem i brugermeddelelsen. Dette opnås ved at føre tilsyn med modellen om eksempler, hvor disse typer meddelelser er i konflikt. Modellen lærer at prioritere systemmeddelelser for at sikre overholdelse af sikkerhedsretningslinjerne og for at forhindre uønskede output.

For eksempel, hvis en bruger forsøger at narre modellen til at give skadelig information, kan systemmeddelelsen instruere modellen om at nægte sådanne anmodninger. GPT-4.5s evne til at overholde dette hierarki hjælper med at opretholde sikkerhedsstandarder og forhindre modellen i at manipuleres til at generere ikke tilladt indhold.

Denne tilgang er afgørende for at sikre, at GPT-4.5 opfører sig konsekvent med dens tilsigtede sikkerhed og etiske retningslinjer, selv når de står over for forsøg på at omgå disse regler gennem smart udformede brugerindgange. Ved at prioritere systemmeddelelser sigter Openai at forbedre modellens pålidelighed og sikkerhed i forskellige applikationer [1] [2].

Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
)
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-bimited-to-free-s-users-and-jet-plus-users-it-liter talt-gives-you-5-messages-in-5-6-hours-to-the-free-liter talt-barelely-gives-you-5-messages-in-5-6-hours-to-the-free-nusers/769852
)
[6] https://arxiv.org/html/2408.10943v1
)
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_efficient_promppt_for_summarizing_gpt4/