Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Hur fungerar GPT-4.5 i scenarier där användarmeddelanden försöker lura modellen


Hur fungerar GPT-4.5 i scenarier där användarmeddelanden försöker lura modellen


GPT-4.5: s prestanda i scenarier där användarmeddelanden försöker lura modellen utvärderas genom flera bedömningar, med fokus på dess förmåga att motstå motsatser och upprätthålla säkerhetsstandarder.

Säkerhetsutvärderingar och jailbreaks

1. Utvärderingar av jailbreak: Dessa tester mäter hur väl GPT-4,5 motstår försök att kringgå sina säkerhetsmekanismer. Modellen utvärderas mot jailbreaks och StrongReject-riktmärket, som bedömer motstånd mot vanliga motståndare attacker. GPT-4.5 presterar bra i mänskliga sällda jailbreaks och uppnår en hög noggrannhet på 0,99. I StrongReject-riktmärket får emellertid 0,34, vilket är något lägre än GPT-4O1: s poäng på 0,87 [1].

2. Utvärderingar av hierarki: För att mildra snabba injektionsattacker utbildas GPT-4,5 för att följa en hierarki av instruktioner, prioritera systemmeddelanden framför användarmeddelanden. I utvärderingar där system- och användarmeddelanden konflikter, GPT-4.5 i allmänhet fungerar bra, med en noggrannhet på 0,76. Detta är en förbättring jämfört med GPT-4O men något under GPT-4O1: s prestanda [1].

3. Tutor Jailbreaks: I scenarier där modellen instrueras att inte avslöja svar på matematiska frågor, visar GPT-4,5 måttlig framgång, med en noggrannhet på 0,77. Detta är en betydande förbättring jämfört med GPT-4O men inte så hög som GPT-4O1: s prestanda [1].

4. Fraser och lösenordsskydd: GPT-4.5 utvärderas också på sin förmåga att skydda specifika fraser eller lösenord från att avslöjas genom användarmeddelanden. Det fungerar bra i dessa tester, med noggrannhet på 0,86 för frasskydd och 0,92 för lösenordsskydd [1].

Red Teaming Evaluations

GPT-4.5 genomgår utvärderingar av röda teaming som är utformade för att testa sin robusthet mot motståndare. Dessa utvärderingar täcker scenarier som olaglig rådgivning, extremism, hatbrott, politisk övertalning och självskada. GPT-4.5 producerar säkra utgångar i cirka 51% av den första utvärderingsuppsättningen för röda team, något högre än GPT-4O men lägre än GPT-4O1. I en andra utvärdering som är inriktad på riskabelt råd utför GPT-4,5 bättre än GPT-4O men inte lika bra som GPT-4O eller djupa forskningsmodeller [1].

Övergripande prestanda

Medan GPT-4,5 visar förbättringar i hantering av känsliga och motsatta instruktioner jämfört med tidigare modeller, står det fortfarande inför utmaningar i mycket motsatta scenarier. Dess prestanda är solida för allmänna uppgifter men kanske inte är optimala för avancerade problemlösning eller djupa kodningsuppgifter jämfört med specialiserade modeller som O3-MINI [3] [5].

Sammanfattningsvis visar GPT-4,5 motståndskraft mot försök att lura det, särskilt i scenarier där det måste prioritera systeminstruktioner framför användarinsatser. Det har emellertid fortfarande begränsningar i mycket motsatta sammanhang, vilket återspeglar pågående utmaningar för att balansera säkerhet och funktionalitet i AI -modeller.

Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significant_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw