GPT-4.5 Förbättringar vid hantering av motstridiga instruktioner och säkerhetsförbättringar

Hur jämför GPT-4.5: s prestanda med tidigare versioner i hantering av motstridiga instruktioner

GPT-4.5 visar förbättrad prestanda vid hantering av motstridiga instruktioner jämfört med tidigare versioner, särskilt genom dess förbättrade anslutning till en instruktionshierarki. Denna hierarki gör det möjligt för modellen att prioritera systemmeddelanden framför användarinsatser, vilket minskar riskerna från motstridiga anvisningar. I utvärderingar överträffar GPT-4.5 generellt GPT-4O i scenarier där system- och användarmeddelanden konfliktar, vilket indikerar bättre förmåga att följa säkerhetsinstruktioner och undvika att luras av motståndare [1] [5].

Nyckelförbättringar i hantering av motstridiga instruktioner

1. Utvärdering av hierarki: GPT-4,5 visar förbättrad noggrannhet vid följande systeminstruktioner över användarmeddelanden. Till exempel, i ett scenario där modellen instrueras att inte ge bort svaret på en matematisk fråga, presterar GPT-4,5 bättre än GPT-4O, men inte så bra som GPT-4O1 [1].

2. Mitering av snabba injektioner: Genom att prioritera systemmeddelanden minskar GPT-4,5 risken för snabba injektioner och andra attacker som kan åsidosätta dess säkerhetsinstruktioner. Detta är avgörande för att upprätthålla modellens integritet och förhindra missbruk [1] [5].

3. Realistiska scenarier: I mer realistiska scenarier, till exempel när man fungerar som matematiklärare, är GPT-4,5 bättre på att motstå försök att lura det att tillhandahålla obehörig information. Emellertid är dess prestanda inte perfekt och kan variera beroende på det specifika sammanhanget och instruktionerna som tillhandahålls [1].

4. Säkerhetsutvärderingar: GPT-4.5 genomgår stränga säkerhetsutvärderingar för att säkerställa att den inte uppfyller förfrågningar om skadligt innehåll. Även om det fungerar bra när det gäller att vägra osäkert innehåll, kan det övermynta mer än tidigare modeller, vilket indikerar ett försiktigt tillvägagångssätt för att hantera tvetydiga eller potentiellt riskabla instruktioner [1].

Sammantaget erbjuder GPT-4,5 betydande förbättringar i hantering av motstridiga instruktioner genom att följa systemriktlinjerna och minska påverkan av motståndarinmatningar. Men som alla AI -modeller är det inte immun mot alla former av manipulation och fortsätter att utvecklas med pågående säkerhetsutvärderingar och uppdateringar [1] [5].

Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
]
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model- release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-sheasoning