Hierarchie instrukcí GPT-4.5: Prioritizace systémových zpráv pro bezpečnost a zabezpečení

Jak GPT-4.5 upřednostňuje systémové zprávy před uživateli

GPT-4.5 upřednostňuje systémové zprávy před uživatelskými zprávami prostřednictvím hierarchie instrukcí, která je navržena tak, aby zmírnila riziko rychlých injekcí a dalších útoků, které by mohly potlačit bezpečnostní pokyny modelu. Tato hierarchie klasifikuje zprávy do dvou hlavních typů: systémové zprávy a uživatelské zprávy. Systémové zprávy jsou v podstatě skryté pokyny, které řídí chování AI, zatímco uživatelské zprávy jsou vstupy poskytované uživateli.

V GPT-4.5, kdy je konflikt systémových a uživatelských zpráv, je model vyškolen tak, aby dodržoval pokyny v systémové zprávě nad těmi v uživatelské zprávě. Toho je dosaženo dohledem k modelu na příkladech, kde jsou tyto typy zpráv v konfliktu. Model se učí upřednostňovat systémové zprávy, aby zajistil dodržování bezpečnostních pokynů a zabránil nežádoucím výstupům.

Například, pokud se uživatel pokusí oklamat model k poskytování škodlivých informací, může systémová zpráva instruovat model, aby takové požadavky odmítal. Schopnost GPT-4.5 dodržovat tuto hierarchii pomáhá při udržování bezpečnostních standardů a zabránění manipulaci s modelem do generování zakázání obsahu.

Tento přístup je zásadní pro zajištění toho, aby se GPT-4.5 choval v souladu s zamýšlenými bezpečnostmi a etickými pokyny, i když čelil pokusům obejít tato pravidla prostřednictvím chytře vytvořených uživatelských vstupů. Cílem OpenAI upřednostňováním systémových zpráv je zvýšit spolehlivost a zabezpečení modelu v různých aplikacích [1] [2].

Citace:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-use-use-use-real-world-experiments-pompt-injection-protectors
[3] https://platform.openai.com/docs/guides/Promppt-engineering
[4] https://community.openai.com/t/whys-gpt-4-insely-limited-tore-users-and-plus-esers-it-literálně-gives-you-5-massages-in-5-6-Hours
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-out-to-plus-and-team-users-next-theek-then-enterprise-ande-edu-users-the-fortong-theek
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_effient_promp_for_summarizing_gpt4/