GPT-4.5: Förbättrad prestanda vid hantering av motstridiga instruktioner

Hur jämför GPT-4.5: s prestanda med tidigare versioner i hantering av motstridiga instruktioner

GPT-4.5 visar förbättrad prestanda vid hantering av motstridiga instruktioner jämfört med tidigare versioner, särskilt genom dess förbättrade instruktionshierarki. Den här funktionen gör det möjligt för modellen att prioritera systemmeddelanden framför användarinsatser, vilket minskar risker som är förknippade med snabba injektioner och andra attacker som kan åsidosätta säkerhetsinstruktionerna.

Vid utvärderingar som involverar motstridiga meddelandetyper överträffar GPT-4.5 generellt GPT-4O. Modellen är utbildad för att följa instruktionerna i det högsta prioritetsmeddelandet, vilket hjälper till i scenarier där system- och användarmeddelanden konflikter. Till exempel, i ett scenario där modellen instrueras att inte ge bort svaret på en matematisk fråga, visar GPT-4,5 bättre anslutning till dessa systeminstruktioner jämfört med GPT-4O, även om den inte överträffar GPT-4O1 i alla utvärderingar [1].

Dessutom har GPT-4,5 utvärderats i scenarier där det måste skydda specifika fraser eller lösenord från att avslöjas genom användare. I dessa utvärderingar presterar GPT-4.5 bra, vilket indikerar dess förmåga att upprätthålla säkerhet och följa systeminstruktioner även när de möter motstridiga användarinsatser [1].

Även om GPT-4.5 förbättras tidigare modeller i hantering av motstridiga instruktioner, står det fortfarande inför utmaningar i vissa komplexa scenarier. Modellens prestanda i utvärderingar av röda teaming, som simulerar motståndare, visar att den kan producera osäkra utgångar i vissa fall, även om den i allmänhet fungerar bättre än GPT-4O i dessa utmanande tester [1].

Sammantaget gör GPT-4.5: s förbättringar i hantering av motstridiga instruktioner till ett mer tillförlitligt val för applikationer som kräver strikt efterlevnad av säkerhetsriktlinjer och systeminstruktioner.

Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
]
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model- release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-sheasoning