GPT-4.5 Forbedringer i håndtering af modstridende instruktioner og sikkerhedsforbedringer

Hvordan sammenlignes GPT-4.5s præstation med tidligere versioner i håndtering af modstridende instruktioner

GPT-4.5 viser forbedret ydelse i håndtering af modstridende instruktioner sammenlignet med tidligere versioner, især gennem dens forbedrede overholdelse af et instruktionshierarki. Dette hierarki giver modellen mulighed for at prioritere systemmeddelelser frem for brugerinput og afbøde risici ved modstridende promp. I evalueringer overgår GPT-4.5 generelt GPT-4O i scenarier, hvor system- og brugerbeskeder er i konflikt, hvilket indikerer bedre evne til at følge sikkerhedsinstruktioner og undgå at blive narret af modstridende prompter [1] [5].

Nøgleforbedringer i håndtering af modstridende instruktioner

1. Instruktionshierarkievaluering: GPT-4.5 viser forbedret nøjagtighed i følgende systeminstruktioner over brugerbeskeder. For eksempel i et scenarie, hvor modellen instrueres om ikke at give væk svaret på et matematikspørgsmål, fungerer GPT-4.5 bedre end GPT-4O, dog ikke så godt som GPT-4O1 [1].

2. afbødning af hurtige injektioner: Ved at prioritere systemmeddelelser reducerer GPT-4.5 risikoen for hurtige injektioner og andre angreb, der kan tilsidesætte dens sikkerhedsinstruktioner. Dette er afgørende for at opretholde modellens integritet og forhindre misbrug [1] [5].

3. realistiske scenarier: I mere realistiske scenarier, såsom når man fungerer som matematiklærer, er GPT-4.5 bedre til at modstå forsøg på at narre det til at give uautoriseret information. Imidlertid er dens ydeevne ikke perfekt og kan variere afhængigt af den specifikke kontekst og instruktioner, der leveres [1].

4. Sikkerhedsevalueringer: GPT-4.5 gennemgår strenge sikkerhedsevalueringer for at sikre, at den ikke overholder anmodninger om skadeligt indhold. Mens det klarer sig godt med at nægte usikkert indhold, kan det overrefuse mere end tidligere modeller, hvilket indikerer en forsigtig tilgang til håndtering af tvetydige eller potentielt risikable spørgsmål [1].

Generelt tilbyder GPT-4.5 betydelige forbedringer i håndtering af modstridende instruktioner ved at overholde mere tæt på systemretningslinjer og reducere virkningen af modstridende brugerindgange. Som alle AI -modeller er det imidlertid ikke immun mod alle former for manipulation og fortsætter med at udvikle sig med løbende sikkerhedsevalueringer og opdateringer [1] [5].

Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-kompareret
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
)
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[7] https://www.theverge.com/news/620021/openai-trpt-4-5-orion-i-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning