Vylepšení GPT-4.5 Při manipulaci s konfliktními pokyny a zlepšení bezpečnosti

Jak se výkon GPT-4.5 ve srovnání s dřívějšími verzemi při řešení konfliktních pokynů

GPT-4.5 ukazuje zlepšený výkon při řešení protichůdných pokynů ve srovnání s dřívějšími verzemi, zejména díky jeho zvýšenému dodržování hierarchie instrukcí. Tato hierarchie umožňuje modelu upřednostňovat systémové zprávy před vstupy uživatelů a zmírnit rizika z konfliktních výzev. V hodnoceních GPT-4.5 obecně překonává GPT-4o ve scénářích, kde se konfliktují systémové a uživatelské zprávy, což ukazuje na lepší schopnost dodržovat bezpečnostní pokyny a vyhýbat se podvedení kontradiktorními výzvami [1] [5].

Klíčová vylepšení při manipulaci s konfliktními pokyny

1. Vyhodnocení hierarchie instrukcí: GPT-4.5 ukazuje zlepšenou přesnost v následujících systémových pokynech ohledně uživatelských zpráv. Například ve scénáři, kde je model pokyn, aby neodpověděl na matematickou otázku, GPT-4,5 funguje lépe než GPT-4o, i když ne stejně jako GPT-4O1 [1].

2. zmírnění rychlých injekcí: GPT-4.5 upřednostňováním systémových zpráv snižuje riziko rychlých injekcí a dalších útoků, které by mohly potlačit jeho bezpečnostní pokyny. To je zásadní pro udržení integrity modelu a zabránění zneužití [1] [5].

3. Realistické scénáře: V realističtějších scénářích, například při jednání jako matematický učitel, je GPT-4.5 lépe odolávat pokusům o to, aby je přiměl k poskytnutí neautorizovaných informací. Jeho výkon však není dokonalý a může se lišit v závislosti na konkrétním kontextu a poskytnutých pokynech [1].

4. Hodnocení bezpečnosti: GPT-4.5 podléhá přísným hodnocením bezpečnosti, aby se zajistilo, že nesplňuje žádosti o škodlivý obsah. I když to funguje dobře při odmítnutí nebezpečného obsahu, může se nadměrně přehrát více než dřívější modely, což naznačuje opatrný přístup k manipulaci s nejednoznačnými nebo potenciálně riskantními výzvami [1].

Celkově GPT-4.5 nabízí významná zlepšení při řešení protichůdných pokynů tím, že dodržuje více s pokyny pro systémy a snižuje dopad kontradiktorních uživatelských vstupů. Stejně jako všechny modely AI však není imunní vůči všem formám manipulace a neustále se vyvíjí s průběžným hodnocením a aktualizací bezpečnosti [1] [5].

Citace:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-Model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-difference-to-Consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significaly_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/ChatGPT-45-MODEL-OPENAI-ZDRAVOSTI