Hierarchie instrukcí GPT-4.5: Manipulace s konfliktními zprávami

Jak GPT-4.5 zpracovává protichůdné pokyny mezi systémem a uživateli

GPT-4.5 je navržen tak, aby prostřednictvím hierarchie instrukcí zpracovával protichůdné pokyny mezi systémem a uživateli. Tato hierarchie pomáhá modelu upřednostňovat systémové zprávy před uživatelskými zprávami, aby zmírnila rizika spojená s protichůdnými výzvami, jako jsou rychlé injekce nebo jiné útoky, které by mohly potlačit bezpečnostní pokyny modelu.

Klíčové funkce hierarchie instrukcí

1. Klasifikace zpráv: GPT-4.5 Rozlišuje mezi dvěma typy zpráv: systémové zprávy a uživatelské zprávy. Systémové zprávy jsou považovány za vyšší autoritu a používají se k stanovení bezpečnostních pokynů nebo konkrétních pokynů pro model.

2. Řešení konfliktů: Když je konflikt systémových a uživatelských zpráv konflikt, je GPT-4.5 vyškolen, aby dodržoval pokyny v systémové zprávě. Tím je zajištěno, že model dodržuje bezpečnostní pokyny a nezabývá se škodlivými nebo zakázanými činnostmi.

3. Hodnocení a školení: Model je hodnocen na jeho schopnosti řešit konflikty prostřednictvím různých scénářů. Například ve scénáři, ve kterém je model pokyn, aby neodpověděl na matematický problém (systémová zpráva), a uživatel se to pokusí oklamat (uživatelská zpráva), GPT-4.5 musí odolat pokusu uživatele a dodržovat systémovou instrukci.

4. Výkon: GPT-4.5 obecně funguje dobře v těchto hodnoceních, což ukazuje na zlepšení oproti předchozím modelům, jako je GPT-4o v konfliktech zacházení s uživateli systému. Existují však specifické scénáře, ve kterých nemusí fungovat stejně jako GPT-4O nebo GPT-4O1, například v určitých testech útěku z vězení, kde je podváděno odhalení informací, které by nemělo [1] [7].

Hodnocení bezpečnosti

GPT-4.5 podstoupí přísná hodnocení bezpečnosti, aby se zajistilo, že negeneruje zakázaný obsah, jako je nenávistné nebo nezákonné rady. Tato hodnocení také hodnotí tendenci modelu nadměrně referovat benigní výzvy související s bezpečnostními tématy. Výkon modelu v těchto oblastech je rozhodující pro udržení jeho bezpečnosti a spolehlivosti při řešení protichůdných pokynů [1].

MODEL SPEC A ÚRUCE ÚROLA

SEC modelu nastiňuje úroveň autority pro různé typy pokynů, přičemž pokyny na úrovni platformy mají nejvyšší autoritu, následované pokyny pro vývojáře a uživatele. Tato hierarchie zajišťuje, že GPT-4.5 upřednostňuje bezpečnost a dodržuje pokyny a přitom umožňuje přizpůsobení uživateli a vývojáři v rámci stanovených hranic [2] [5].

Celkově je klíčovým aspektem jeho designu celkově schopnost vyřizovat konfliktní pokyny, což zajišťuje, že udržuje bezpečnost a integritu při interakci s uživateli.

Citace:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-dere-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-lanlans-gpt-5 release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/