Hierarchia inštrukcií GPT-4.5: Prioritné systémy správ pre bezpečnosť a bezpečnosť

Ako GPT-4.5 uprednostňuje systémové správy pred používateľskými správami

GPT-4.5 uprednostňuje systémové správy pred používateľskými správami prostredníctvom hierarchie inštrukcií, ktorá je určená na zmiernenie rizika rýchlych injekcií a iných útokov, ktoré by mohli prepísať bezpečnostné pokyny modelu. Táto hierarchia klasifikuje správy do dvoch hlavných typov: systémové správy a používateľské správy. Systémové správy sú v podstate skryté pokyny, ktoré usmerňujú správanie AI, zatiaľ čo používateľské správy sú vstupy poskytované používateľmi.

V GPT-4,5, keď je konflikt systémových a používateľských správ, model je vyškolený tak, aby dodržiaval pokyny v systémovej správe nad tými v používateľskej správe. Dosahuje sa to dohľadom nad modelom na príkladoch, v ktorých sú tieto typy správ v konflikte. Model sa učí uprednostňovať systémové správy, aby sa zabezpečilo dodržiavanie bezpečnostných usmernení a zabránili nežiaducim výstupom.

Napríklad, ak sa používateľ pokúša podviesť model poskytnutia škodlivých informácií, systémová správa môže model nariadiť, aby tieto požiadavky odmietol. Schopnosť GPT-4.5 dodržiavať túto hierarchiu pomáha pri udržiavaní bezpečnostných noriem a zabránení manipulácii s modelom do generovania zakázaného obsahu.

Tento prístup je rozhodujúci pre zabezpečenie toho, aby sa GPT-4,5 správal konzistentne so zamýšľanými bezpečnostnými a etickými pokynmi, aj keď čelia pokusom obísť tieto pravidlá prostredníctvom dômyselne vytvorených vstupov používateľov. Cieľom spoločnosti OpenAI je uprednostňovaním systémových správ na zlepšenie spoľahlivosti a bezpečnosti modelu v rôznych aplikáciách [1] [2].

Citácie:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-sessages-how-to-use-the- --real-world-experiments-prompt-prompt-injekcie protektory
[3] https://platform.openai.com/docs/guides/prompt-ingineering
Https://community.openai.com/t/whys-gpt-4o-insanely-limited-to-free-users-and-even-susers-users-it-literally-larely-gives-you-5-5-messages-in-5-6-d-free-free-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-at-to-plus-and-team-users-next-week-week-the--tine-enterprise-and-unu-users--Following-Week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pynts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_efficient_prompt_for_summarizing_gpt4/