GPT-4.5: Forbedret ydeevne i håndtering af modstridende instruktioner

Hvordan sammenlignes GPT-4.5s præstation med tidligere versioner i håndtering af modstridende instruktioner

GPT-4.5 viser forbedret ydelse i håndtering af modstridende instruktioner sammenlignet med tidligere versioner, især gennem dets forbedrede instruktionshierarki. Denne funktion giver modellen mulighed for at prioritere systemmeddelelser frem for brugerindgange, hvilket mindsker risici forbundet med hurtige injektioner og andre angreb, der kan tilsidesætte sikkerhedsinstruktioner.

I evalueringer, der involverer modstridende meddelelsestyper, overgår GPT-4.5 generelt GPT-4O. Modellen er trænet til at følge instruktionerne i den højeste prioriterede meddelelse, som hjælper i scenarier, hvor system- og brugerbeskeder er i konflikt. For eksempel i et scenarie, hvor modellen instrueres om ikke at give væk svaret på et matematikspørgsmål, viser GPT-4.5 for at overholde disse systeminstruktioner sammenlignet med GPT-4O, selvom det ikke overgår GPT-4O1 i alle evalueringer [1].

Derudover er GPT-4.5 blevet evalueret i scenarier, hvor det skal beskytte specifikke sætninger eller adgangskoder mod at blive afsløret gennem brugerprompter. I disse evalueringer fungerer GPT-4.5 godt, hvilket indikerer dens evne til at opretholde sikkerhed og følge systeminstruktioner, selv når de står over for modstridende brugerindgange [1].

Mens GPT-4.5 forbedrer sig over tidligere modeller i håndtering af modstridende instruktioner, står det stadig overfor udfordringer i visse komplekse scenarier. Modellens ydeevne i røde teaming-evalueringer, der simulerer modstridende tilskyndelse, viser, at den i nogle tilfælde kan producere usikre output, skønt den generelt klarer sig bedre end GPT-4O i disse udfordrende tests [1].

Generelt gør GPT-4.5's forbedringer i håndtering af modstridende instruktioner det til et mere pålideligt valg til applikationer, der kræver streng overholdelse af sikkerhedsretningslinjer og systeminstruktioner.

Citater:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-kompareret
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
)
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[7] https://www.theverge.com/news/620021/openai-trpt-4-5-orion-i-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning