GPT-4.5: Forbedret ytelse i håndtering av motstridende instruksjoner

Hvordan sammenligner GPT-4.5s ytelse med tidligere versjoner i håndtering av motstridende instruksjoner

GPT-4.5 demonstrerer forbedret ytelse i håndtering av motstridende instruksjoner sammenlignet med tidligere versjoner, spesielt gjennom det forbedrede instruksjonshierarkiet. Denne funksjonen gjør at modellen kan prioritere systemmeldinger fremfor brukerinnganger, avbøte risikoer forbundet med hurtig injeksjoner og andre angrep som kan overstyre sikkerhetsinstruksjoner.

I evalueringer som involverer motstridende meldingstyper, overgår GPT-4.5 generelt GPT-4O. Modellen er opplært til å følge instruksjonene i meldingen med høyest prioritet, som hjelper i scenarier der system- og brukermeldinger er i konflikt. For eksempel, i et scenario der modellen blir instruert om ikke å gi bort svaret på et matematikkspørsmål, viser GPT-4.5 bedre overholdelse av disse systeminstruksjonene sammenlignet med GPT-4O, selv om den ikke overgår GPT-4O1 i alle evalueringer [1].

I tillegg er GPT-4.5 evaluert i scenarier der det må beskytte spesifikke setninger eller passord fra å bli avslørt gjennom brukerhjul. I disse evalueringene fungerer GPT-4.5 bra, noe som indikerer dens evne til å opprettholde sikkerhet og følge systeminstruksjoner selv når de blir møtt med motstridende brukerinnganger [1].

Selv om GPT-4.5 forbedrer tidligere modeller i håndtering av motstridende instruksjoner, står det imidlertid overfor utfordringer i visse komplekse scenarier. Modellens ytelse i røde teamingevalueringer, som simulerer motstridende spørsmål, viser at den kan gi utrygge utganger i noen tilfeller, selv om den generelt presterer bedre enn GPT-4O i disse utfordrende testene [1].

Totalt sett gjør GPT-4.5s forbedringer i håndtering av motstridende instruksjoner det til et mer pålitelig valg for applikasjoner som krever streng overholdelse av sikkerhetsretningslinjer og systeminstruksjoner.

Sitasjoner:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-dhismodel-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-fest-differences-to-concred
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[7] https://www.theverge.com/news/620021/opena-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning