GPT-4.5 prioriterar systemmeddelanden framför användarmeddelanden genom en instruktionshierarki, som är utformad för att mildra risken för snabba injektioner och andra attacker som kan åsidosätta modellens säkerhetsinstruktioner. Denna hierarki klassificerar meddelanden i två huvudtyper: systemmeddelanden och användarmeddelanden. Systemmeddelanden är i huvudsak dolda instruktioner som leder AI: s beteende, medan användarmeddelanden är de ingångar som användas av användare.
I GPT-4.5, när system- och användarmeddelanden konflikt, utbildas modellen för att följa instruktionerna i systemmeddelandet över de i användarmeddelandet. Detta uppnås genom att övervaka modellen på exempel där dessa typer av meddelanden är i konflikt. Modellen lär sig att prioritera systemmeddelanden för att säkerställa att säkerhetsriktlinjerna följs och för att förhindra oönskade utgångar.
Till exempel, om en användare försöker lura modellen att tillhandahålla skadlig information, kan systemmeddelandet instruera modellen att vägra sådana förfrågningar. GPT-4.5: s förmåga att följa denna hierarki hjälper till att upprätthålla säkerhetsstandarder och förhindra att modellen manipuleras till att generera tillåtet innehåll.
Detta tillvägagångssätt är avgörande för att säkerställa att GPT-4,5 uppträder konsekvent med dess avsedda säkerhet och etiska riktlinjer, även när de möter försök att kringgå dessa regler genom smart utformade användarinsatser. Genom att prioritera systemmeddelanden syftar OpenAI till att förbättra modellens tillförlitlighet och säkerhet i olika applikationer [1] [2].
Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[3] https://platform.openai.com/docs/guides/prompt-engineering
]
]
[6] https://arxiv.org/html/2408.10943v1
]
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/high_efficient_prompt_for_summarizing_gpt4/