Vylepšenia GPT-4.5 pri riešení protichodných pokynov a zlepšenia bezpečnosti

Ako sa výkon GPT-4.5 porovnáva s predchádzajúcimi verziami pri riešení protichodných pokynov

GPT-4.5 demonštruje zlepšený výkon pri riešení protichodných pokynov v porovnaní s predchádzajúcimi verziami, najmä vďaka svojej zvýšenej dodržiavaní hierarchie výučby. Táto hierarchia umožňuje modelu uprednostňovať systémové správy pred vstupmi používateľov, čím sa zmierňuje riziká z konfliktných výziev. V hodnotení GPT-4,5 vo všeobecnosti prekonáva GPT-4O v scenároch, v ktorých konflikty systémov a používateľov konfliktujú, čo naznačuje lepšiu schopnosť riadiť sa bezpečnostnými pokynmi a vyhnúť sa jej podvedeniu kontradiktradárskymi výzvami [1] [5].

Kľúčové vylepšenia pri riešení protichodných pokynov

1. Vyhodnotenie hierarchie inštrukcií: GPT-4.5 zobrazuje vylepšenú presnosť v nasledujúcich systémových pokynoch v rámci správ používateľov. Napríklad v scenári, v ktorom je model inštruovaný, aby neodovzdal odpoveď na matematickú otázku, GPT-4,5 má lepšie výsledky ako GPT-4O, aj keď nie tak dobre ako GPT-4O1 [1].

2. Zmiernenie rýchlych injekcií: GPT-4,5 tým, že uprednostňuje systémové správy, znižuje riziko rýchlych injekcií a iných útokov, ktoré by mohli prepísať jeho bezpečnostné pokyny. To je rozhodujúce pre udržanie integrity modelu a prevenciu zneužívania [1] [5].

3. Realistické scenáre: V realistickejších scenároch, napríklad pri pôsobení ako matematický lektor, GPT-4,5 je lepší v tom, aby sa vzdoroval pokusom podnietiť ich poskytovanie neoprávnených informácií. Jeho výkon však nie je dokonalý a môže sa líšiť v závislosti od špecifického kontextu a poskytnutých pokynov [1].

4. Hodnotenia bezpečnosti: GPT-4.5 prechádza prísnymi hodnoteniami bezpečnosti, aby sa zabezpečilo, že nespĺňa žiadosti o škodlivý obsah. Aj keď dobre funguje pri odmietnutí nebezpečného obsahu, môže to nadmerne znehodnotiť viac ako predchádzajúce modely, čo naznačuje opatrný prístup k riešeniu nejednoznačných alebo potenciálne riskantných výziev [1].

Celkovo ponúka GPT-4,5 významné zlepšenia pri riešení protichodných pokynov tým, že dôkladnejšie dodržiavajú pokyny pre systém a zníženie vplyvu vstupov do kontradiktórnych používateľov. Rovnako ako všetky modely AI však nie je imunný voči všetkým formám manipulácie a naďalej sa vyvíja s prebiehajúcimi hodnoteniami a aktualizáciami bezpečnosti [1] [5].

Citácie:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-hishis-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significantly_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-orion-ai-model-rease
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-čítania