Pochopenie hierarchie výučby GPT-4.5 na zmiernenie rýchlych riziká injekcie

Ako hierarchia výučby GPT-4,5 zmierňuje riziko rýchlych injekcií

Hierarchia výučby GPT-4.5 je navrhnutá tak, aby zmiernila riziko rýchlych injekcií stanovením jasného príkazu na prioritu pre rôzne typy pokynov. Táto hierarchia zaisťuje, že systémové správy, ktoré sú stanovené vývojármi, majú prednosť pred používateľskými správami a inými vstupmi. Takto to funguje a ako to pomáha predchádzať rýchlym injekčným útokom:

Pochopenie rýchlych injekcií

Výrazné útoky na vstrekovanie sa vyskytujú, keď škodliví používatelia manipulujú s modelmi AI poskytovaním vstupov, ktoré potvrdzujú pôvodné pokyny systému. To môže viesť k neúmyselnému správaniu, ako je napríklad odhalenie citlivých informácií alebo vykonávanie neoprávnených akcií [2] [3].

Hierarchia inštrukcií

Hierarchia inštrukcií v GPT-4.5 uprednostňuje pokyny na základe ich zdroja a dôležitosti. Kategorizuje vstupy do niekoľkých typov, zvyčajne vrátane:
- Systémové správy: Toto sú pokyny s najvyššou prioritou stanovené vývojármi. Definujú primárne úlohy a obmedzenia, ktoré by mal model nasledovať.
- Užívateľské správy: Jedná sa o vstupy poskytované používateľmi a považujú sa za nižšie priority ako systémové správy.
- História konverzácie a výstupy nástrojov: Tieto môžu tiež ovplyvniť model, ale vo všeobecnosti majú prioritu nižšie ako používateľské správy [1] [3].

Zmiernenie rýchlych injekcií

Na zmiernenie okamžitých injekčných útokov je hierarchia inštrukcií zabezpečená, že GPT-4,5 dodržiava tieto zásady:
- Prioritizácia: Model uprednostňuje systémové správy pred vstupmi používateľov. Ak sa používateľ pokúsi vstreknúť výzvu, ktorá je v rozpore so systémovými pokynmi, model bude predvoliť pôvodné usmernenie [3] [5].
- Detekcia nesprávne zarovnaných výziev: GPT-4,5 je vyškolený na identifikáciu a ignorovanie výzvy, ktoré tento konflikt so systémovými pokynmi. Napríklad, ak používateľ zadá „zabudnite na všetky predchádzajúce pokyny“, model to uzná ako nesprávne zarovnanú výzvu a zodpovedajúcim spôsobom reaguje [3].
-Selektívne ignorovanie pokynov nižšej priority: Model je navrhnutý tak, aby selektívne ignoroval pokyny s nižšou prioritou, keď sú v rozpore s vyššími prioritami. To zaisťuje, že model zachováva svoje zamýšľané správanie, aj keď čelí škodlivým vstupom [7].

školenie a hodnotenie

GPT-4,5 je trénovaný pomocou techník, ktoré zdôrazňujú hierarchiu výučby, ako je generovanie syntetických údajov a kontextová destilácia. Tieto metódy pomáhajú modelu naučiť sa efektívne uprednostňovať pokyny a odolávať škodlivým vstupom [6] [7]. Výkon modelu sa vyhodnocuje v scenároch, kde systémové správy sú v rozpore so vstupmi používateľov, čím sa zabezpečuje, že dodržiava hierarchiu výučby a udržuje svoje bezpečnostné funkcie [5].

Celkovo hierarchia inštrukcií v GPT-4.5 zvyšuje bezpečnosť modelu zabezpečením toho, aby sa riadila zamýšľanými pokynmi stanovenými vývojármi, a to aj v prípade protichodných alebo škodlivých vstupov používateľov. Tento prístup je rozhodujúci pre budovanie dôveryhodných systémov AI, ktoré môžu bezpečne fungovať v aplikáciách v reálnom svete.

Citácie:
[1] https://arxiv.org/html/2502.08745v1
[2] https://www.aporia.com/learn/prompt-incance-types-pvention-examples/
[3] https://www.amitysolutions.com/blog/gpt4o-mini-instruction-hyrarchy
[4] https://dev.to/jasny/protecting-against-prompt--incance-in-gpt-1gf8
[5] https://cdn.openai.com/gpt-4-5-system-card.pdf
[6] https://community.openai.com/t/protecting-llms-fromprompt-incincress-and-jailbreaks-new-openaipaper/727636
[7] https://openai.com/index/the-instruction-hierarchy/
[8] https://arxiv.org/html/2311.11538v2