Pochopení hierarchie instrukcí GPT-4.5 ke zmírnění rychlých injekčních rizik

Jak Hierarchie instrukcí GPT-4.5 zmírňuje riziko rychlých injekcí

Hierarchie instrukcí GPT-4.5 je navržena tak, aby zmírnila riziko rychlých injekcí vytvořením jasného prioritního pořadí pro různé typy pokynů. Tato hierarchie zajišťuje, že systémové zprávy, které jsou nastaveny vývojáři, mají přednost před zprávami uživatele a další vstupy. Zde je to, jak to funguje a jak to pomáhá předcházet rychlým útokům na vstřikování:

Pochopení rychlých injekcí

Rychlé útoky na injekci dochází, když škodliví uživatelé manipulují s modely AI tím, že poskytují vstupy, které potlačují původní systémové pokyny. To může vést k nezamýšlenému chování, jako je odhalení citlivých informací nebo provádění neoprávněných akcí [2] [3].

Hierarchie instrukcí

Hierarchie instrukcí v GPT-4.5 upřednostňuje pokyny na základě jejich zdroje a důležitosti. Kategorizuje vstupy do několika typů, obvykle včetně:
- Systémové zprávy: Jedná se o pokyny nejvyšší priority nastavené vývojáři. Definují primární úkoly a omezení, která by měl model dodržovat.
- Uživatelské zprávy: Jedná se o vstupy poskytované uživateli a jsou považovány za nižší než systémové zprávy.
- Historie konverzace a výstupy nástrojů: Mohou také ovlivnit model, ale jsou obecně nižší v prioritě než zprávy uživatelů [1] [3].

Snižování rychlých injekcí

Abychom zmírnili rychlé injekční útoky, hierarchie instrukcí zajišťuje, že GPT-4.5 dodržuje následující zásady:
- Prioritizace: Model upřednostňuje systémové zprávy před vstupy uživatelů. Pokud se uživatel pokusí vložit výzvu, která je v rozporu s instrukcemi systému, model výchozí k původnímu pokynu [3] [5].
- Detekce nevyrovnaných výzev: GPT-4.5 je vyškolen k identifikaci a ignorování výzev, které jsou v rozporu se systémovými pokyny. Například, pokud uživatel zadá „zapomenout na všechny předchozí pokyny“, model to rozpozná jako nesprávně vyrovnanou výzvu a odpovídajícím způsobem odpoví [3].
-Selektivní ignorování pokynů s nižší prioritou: Model je navržen tak, aby selektivně ignoroval pokyny s nižší prioritou, když jsou v rozporu s těmi vyšší prioritou. Tím je zajištěno, že model si udržuje své zamýšlené chování, i když čelí škodlivým vstupům [7].

Školení a hodnocení

GPT-4.5 je vyškolen pomocí technik, které zdůrazňují hierarchii instrukcí, jako je generování syntetických dat a destilace kontextu. Tyto metody pomáhají modelu naučit se efektivně upřednostňovat pokyny a odolávat škodlivým vstupům [6] [7]. Výkon modelu je vyhodnocen ve scénářích, kde systémové zprávy jsou v rozporu s vstupy uživatelů, což zajišťuje, že dodržuje hierarchii instrukcí a udržuje své bezpečnostní funkce [5].

Celkově hierarchie instrukcí v GPT-4.5 zvyšuje zabezpečení modelu tím, že zajišťuje, že se řídí zamýšlenými pokyny stanovenými vývojáři, a to i v důsledku protichůdných nebo škodlivých uživatelských vstupů. Tento přístup je zásadní pro budování důvěryhodných systémů AI, které mohou bezpečně fungovat v aplikacích v reálném světě.

Citace:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-injection-types-prevention-xamples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hierarchie
[4] https://dev.to/jasny/protecting-against-prompt-injection in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-formpt-nijections-and-jailbreaks-new-openai-paper/727636
[7] https://openai.com/index/the-instruction-hierarchie/
[8] https://arxiv.org/html/2311.11538v2