GPT-4.5 Instructiehiërarchie: prioriteit geven aan systeemberichten voor veiligheid en beveiliging

Hoe geeft GPT-4.5 prioriteit aan systeemberichten boven gebruikersberichten

GPT-4.5 geeft prioriteit aan systeemberichten boven gebruikersberichten via een instructiehiërarchie, die is ontworpen om het risico van snelle injecties en andere aanvallen te verminderen die de veiligheidsinstructies van het model kunnen overschrijven. Deze hiërarchie classificeert berichten in twee hoofdtypen: systeemberichten en gebruikersberichten. Systeemberichten zijn in wezen verborgen instructies die het gedrag van de AI begeleiden, terwijl gebruikersberichten de ingangen van gebruikers zijn.

In GPT-4.5, wanneer systeem- en gebruikersberichten conflicten, wordt het model getraind om de instructies in het systeembericht te volgen over die in het gebruikersbericht. Dit wordt bereikt door toezicht te houden op het model over voorbeelden waarbij dit soort berichten in conflicten zijn. Het model leert prioriteit te geven aan systeemberichten om de naleving van de veiligheidsrichtlijnen te garanderen en om ongewenste output te voorkomen.

Als een gebruiker bijvoorbeeld probeert het model te misleiden om schadelijke informatie te verstrekken, kan het systeembericht het model instrueren om dergelijke verzoeken te weigeren. Het vermogen van GPT-4.5 om zich aan deze hiërarchie te houden, helpt bij het handhaven van veiligheidsnormen en het voorkomen van het model worden gemanipuleerd om niet-toegestane inhoud te genereren.

Deze benadering is van cruciaal belang om ervoor te zorgen dat GPT-4.5 zich consequent gedraagt met de beoogde veiligheids- en ethische richtlijnen, zelfs wanneer ze worden geconfronteerd met pogingen om deze regels te omzeilen door middel van slimme gebruikersinputs. Door prioriteit te geven aan systeemberichten, wil OpenAI de betrouwbaarheid en beveiliging van het model in verschillende applicaties verbeteren [1] [2].

Citaten:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/verything-system-messages-how-to-use-them-real-World-experimenten-prompt-injectie-injectie-protectoren
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o- insanely-limited-to-free-users-en-plus-users-it-literaal-bard-gives-jou-5-messages-in-5-6-6-to-the-free-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-to-plus-and-eam-users-next-wek-then-to-enterprise-and-edu-users-thest-following-week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comment