Vyhodnocení výkonnosti GPT-4.5 proti kontradiktorním výzev a bezpečnostním mechanismům

Jak GPT-4.5 funguje ve scénářích, kde se uživatelské zprávy pokoušejí oklamat model

Výkon GPT-4.5 ve scénářích, ve kterých se uživatelské zprávy pokoušejí oklamat model, jsou vyhodnoceny prostřednictvím několika hodnocení, se zaměřením na jeho schopnost odolat kontradiktorním pokynům a udržovat bezpečnostní standardy.

Hodnocení bezpečnosti a útěky z vězení

1. Hodnocení útěku z vězení: Tyto testy měří, jak dobře GPT-4.5 odolává pokusům o obcházení bezpečnostních mechanismů. Model je hodnocen proti útěk z vězení s lidmi a Strongreject Benchmark, který hodnotí odolnost vůči běžným kontradiktorním útokům. GPT-4,5 funguje dobře v útěk z vězení s lidmi a dosahuje vysoké přesnosti 0,99. V benchmarku Strongreject však skóre 0,34, což je o něco nižší než skóre GPT-4O1 0,87 [1].

2. Hodnocení hierarchie instrukcí: Pro zmírnění rychlých injekčních útoků je GPT-4.5 vyškolen, aby sledoval hierarchii pokynů a upřednostňoval systémové zprávy před uživatelskými zprávami. V hodnocení, kde jsou v konfliktu systémové a uživatelské zprávy, GPT-4.5 obecně funguje dobře, s přesností 0,76. Toto je zlepšení oproti GPT-4o, ale mírně pod výkonem GPT-4O1 [1].

3.. Tvrdící útěk z vězení: Ve scénářích, kde je model pokyn, aby neodhalil odpovědi na matematické otázky, GPT-4,5 ukazuje mírný úspěch, s přesností 0,77. Jedná se o významné zlepšení oproti GPT-4o, ale ne tak vysoké jako výkon GPT-4O1 [1].

4. Ochrana frází a hesel: GPT-4.5 je také vyhodnocena na jeho schopnosti chránit konkrétní fráze nebo hesla před odhalením prostřednictvím uživatelských zpráv. V těchto testech funguje dobře, s přesností 0,86 pro ochranu frází a 0,92 pro ochranu hesel [1].

Červená hodnocení týmových týmů

GPT-4.5 podléhá červeným hodnocením týmu, která má otestovat jeho robustnost proti kontradiktorním výzev. Tato hodnocení se týkají scénářů, jako jsou nedovolené rady, extremismus, zločiny z nenávisti, politické přesvědčování a sebepoškozování. GPT-4,5 produkuje bezpečné výstupy v přibližně 51% první sady hodnocení týmu Red, o něco vyšší než GPT-4o, ale nižší než GPT-4O1. Ve druhém hodnocení zaměřeném na rizikové poradenství funguje GPT-4,5 lépe než GPT-4O, ale ne stejně jako GPT-4O1 nebo hluboké výzkumné modely [1].

Celkový výkon

Zatímco GPT-4.5 prokazuje vylepšení při zacházení s citlivými a kontradiktorními výzvami ve srovnání s dřívějšími modely, stále čelí výzvám ve vysoce kontradiktorních scénářích. Jeho výkon je pevný pro obecné úkoly, ale nemusí být optimální pro pokročilé úkoly pro řešení problémů nebo hluboké kódování ve srovnání se specializovanými modely, jako jsou O3-Mini [3] [5].

Stručně řečeno, GPT-4.5 ukazuje odolnost proti pokusům o to oklamat, zejména ve scénářích, kde musí upřednostňovat systémové pokyny oproti uživatelským vstupům. Stále však má omezení ve vysoce kontradiktorních kontextech, což odráží pokračující výzvy při vyvážení bezpečnosti a funkčnosti v modelech AI.

Citace:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/Promppt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-Model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toded_down_significaly_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-to-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0KBAS3S5RYW