GPT-4.5 Forbedringer i håndtering av motstridende instruksjoner og sikkerhetsforbedringer

Hvordan sammenligner GPT-4.5s ytelse med tidligere versjoner i håndtering av motstridende instruksjoner

GPT-4.5 viser forbedret ytelse i håndtering av motstridende instruksjoner sammenlignet med tidligere versjoner, spesielt gjennom det forbedrede overholdelsen av et instruksjonshierarki. Dette hierarkiet lar modellen prioritere systemmeldinger fremfor brukerinnganger, og avbøte risikoer fra motstridende spørsmål. I evalueringer overgår GPT-4.5 generelt GPT-4O i scenarier der system- og brukermeldinger er i konflikt, noe som indikerer bedre evne til å følge sikkerhetsinstruksjoner og unngå å bli lurt av motstridende spørsmål [1] [5].

Nøkkelforbedringer i håndtering av motstridende instruksjoner

1. Instruksjonshierarki Evaluering: GPT-4.5 viser forbedret nøyaktighet i følgende systeminstruksjoner over brukermeldinger. For eksempel, i et scenario der modellen blir instruert om ikke å gi bort svaret på et matematikkspørsmål, presterer GPT-4.5 bedre enn GPT-4O, men ikke så bra som GPT-4O1 [1].

2. Begrensning av hurtige injeksjoner: Ved å prioritere systemmeldinger, reduserer GPT-4.5 risikoen for hurtige injeksjoner og andre angrep som kan overstyre sikkerhetsinstruksjonene. Dette er avgjørende for å opprettholde modellens integritet og forhindre misbruk [1] [5].

3. Realistiske scenarier: I mer realistiske scenarier, for eksempel når du fungerer som en matematikklærer, er GPT-4.5 flinkere til å motstå forsøk på å lure den til å gi uautorisert informasjon. Imidlertid er ytelsen ikke perfekt og kan variere avhengig av den spesifikke konteksten og instruksjonene som er gitt [1].

4. Sikkerhetsevalueringer: GPT-4.5 gjennomgår strenge sikkerhetsevalueringer for å sikre at den ikke oppfyller forespørsler om skadelig innhold. Selv om det presterer bra med å nekte utrygt innhold, kan det overrepe mer enn tidligere modeller, noe som indikerer en forsiktig tilnærming til å håndtere tvetydige eller potensielt risikable spørsmål [1].

Totalt sett tilbyr GPT-4.5 betydelige forbedringer i håndtering av motstridende instruksjoner ved å feste seg nærmere til systemretningslinjer og redusere virkningen av motstridende brukerinnganger. I likhet med alle AI -modeller er det imidlertid ikke immun mot alle former for manipulasjon og fortsetter å utvikle seg med pågående sikkerhetsevalueringer og oppdateringer [1] [5].

Sitasjoner:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-dhismodel-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-fest-differences-to-concred
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[7] https://www.theverge.com/news/620021/opena-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning