GPT-4,5 Inštrukcia Hierarchia: Riešenie konfliktných správ

Ako spracováva GPT-4.5 konfliktné pokyny medzi systémami a používateľskými správami

GPT-4.5 je navrhnutý tak, aby zvládal konfliktné pokyny medzi systémami a používateľskými správami prostredníctvom hierarchie inštrukcií. Táto hierarchia pomáha modelu uprednostňovať systémové správy pred používateľskými správami, aby zmiernili riziká spojené s protichodnými výzvami, ako sú rýchle injekcie alebo iné útoky, ktoré by mohli prepísať bezpečnostné pokyny modelu.

Kľúčové funkcie hierarchie výučby

1. Klasifikácia správ: GPT-4,5 rozlišuje medzi dvoma typmi správ: systémové správy a používateľské správy. Systémové správy sa považujú za vyššiu autoritu a používajú sa na stanovenie bezpečnostných pokynov alebo konkrétnych pokynov pre model.

2. Riešenie konfliktov: Keď je konflikt systémových a používateľských správ, GPT-4.5 je vyškolený na dodržiavanie pokynov v systéme. To zaisťuje, že model dodržiava bezpečnostné usmernenia a nezúčastňuje sa škodlivých alebo zakázaných činností.

3. Hodnotenie a školenie: Model sa hodnotí podľa jeho schopnosti zvládnuť konflikty prostredníctvom rôznych scenárov. Napríklad v scenári, v ktorom je model inštruovaný, aby neodovzdal odpoveď na matematický problém (systémová správa) a používateľ sa ho pokúša oklamať (používateľská správa), musí GPT-4.5 odolať pokusu používateľa a riadiť sa systémovou inštrukciou.

4. Výkon: GPT-4,5 pri týchto hodnoteniach všeobecne funguje dobre, pričom pri riešení konfliktov správ-používateľ-používateľa vykazuje zlepšenie oproti predchádzajúcim modelom, ako je GPT-4O. Existujú však špecifické scenáre, v ktorých nemusia fungovať tak dobre ako GPT-4O alebo GPT-4O1, napríklad v určitých testoch útek z väzenia, kde sa podvádza v odhalení informácií, ktoré by nemalo [1] [7].

Hodnotenia bezpečnosti

GPT-4.5 prechádza prísnymi hodnoteniami bezpečnosti, aby sa zabezpečilo, že nevytvára neplošný obsah, ako je nenávistné alebo nezákonné rady. Tieto hodnotenia tiež hodnotia tendenciu modelu k nadmerným podávaním benígnych výziev týkajúcich sa bezpečnostných tém. Výkonnosť v týchto oblastiach je rozhodujúca pre udržanie jeho bezpečnosti a spoľahlivosti pri riešení protichodných pokynov [1].

Model Specition and Authority Úrovne

Špecifikácia modelu načrtáva úrovne autority pre rôzne typy pokynov, pričom pokyny na úrovni platformy majú najvyššiu autoritu, po ktorej nasledujú pokyny pre vývojárov a používateľov. Táto hierarchia zaisťuje, že GPT-4,5 uprednostňuje bezpečnosť a dodržiava pokyny a zároveň umožňuje prispôsobenie používateľmi a vývojármi v rámci hraníc Set [2] [5].

Celkovo je schopnosť GPT-4,5 zvládnuť protichodné pokyny kľúčovým aspektom jeho dizajnu, čím sa zabezpečuje, že zachováva bezpečnosť a integritu pri interakcii s používateľmi.

Citácie:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-imelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/