GPT-4.5 visar specifika förbättringar jämfört med GPT-4O vid hantering av motstridiga meddelanden genom dess förbättrade instruktionshierarki. Denna funktion gör det möjligt för modellen att prioritera systemmeddelanden framför användarmeddelanden, vilket minskar risken för snabba injektioner och andra attacker som kan åsidosätta säkerhetsinstruktionerna. Här är de viktigaste förbättringarna:
1. Utvärdering av hierarki: I utvärderingar där olika typer av meddelanden strider mot varandra utbildas GPT-4,5 för att följa instruktionerna i det högsta prioritetsmeddelandet. Detta hjälper modellen att bättre hantera scenarier där användarinsatser kan försöka kringgå säkerhetsprotokoll.
2. Konfliktupplösning: GPT-4.5 överträffar i allmänhet GPT-4O i utvärderingar som involverar konflikter mellan system- och användarmeddelanden. Denna förbättring är avgörande för att upprätthålla säkerhet och följa riktlinjerna i komplexa konversationsscenarier.
3. Tutor Jailbreaks: I ett specifikt scenario där modellen fungerar som en matematikhandledare, instrueras GPT-4.5 att inte avslöja svaret på en matematikfråga. Medan GPT-4,5 inte överträffar GPT-4O i denna speciella utvärdering (GPT-4O: s noggrannhet är högre), visar det fortfarande robusthet i att motstå försök att lura det att tillhandahålla obehörig information.
4. Fras och lösenordsskydd: GPT-4,5 visar stark prestanda för att skydda specifika fraser eller lösenord från att avslöjas genom användaruppdrag. Detta indikerar en bättre förmåga att upprätthålla konfidentialitet och följa säkerhetsriktlinjerna jämfört med vissa tidigare modeller.
Sammantaget är GPT-4.5: s förbättringar i hantering av motstridiga meddelanden en del av dess bredare förbättringar i säkerhet, nyans och samarbete, vilket gör det mer effektivt för att upprätthålla säkra och lämpliga interaktioner [1] [3].
Citeringar:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
]
[3] https://openai.com/index/introducing-gpt-4-5/
]
]
]
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/188t13h/gpt4_has_a_limit_of_40_messages3_hours_now/