GPT-4.5 Hiérarchie d'instructions: prioriser les messages du système pour la sécurité et la sécurité

Comment GPT-4.5 priorise-t-il les messages système sur les messages utilisateur

GPT-4.5 hiérarte les messages système sur les messages utilisateur via une hiérarchie d'instructions, qui est conçue pour atténuer le risque d'injections rapides et d'autres attaques qui pourraient remplacer les instructions de sécurité du modèle. Cette hiérarchie classe les messages en deux types principaux: messages système et messages utilisateur. Les messages système sont essentiellement des instructions cachées qui guident le comportement de l'IA, tandis que les messages utilisateur sont les entrées fournies par les utilisateurs.

Dans GPT-4.5, lorsque le système et les messages utilisateur sont confrontés à un conflit, le modèle est formé pour suivre les instructions dans le message système par rapport à ceux du message utilisateur. Ceci est réalisé en supervisant le modèle sur des exemples où ces types de messages sont en conflit. Le modèle apprend à hiérarchiser les messages système pour garantir l'adhésion aux directives de sécurité et à empêcher les sorties indésirables.

Par exemple, si un utilisateur tente de inciter le modèle à fournir des informations nocives, le message système peut demander au modèle de refuser ces demandes. La capacité de GPT-4.5 à adhérer à cette hiérarchie aide à maintenir les normes de sécurité et à empêcher le modèle d'être manipulé pour générer un contenu refusé.

Cette approche est cruciale pour garantir que le GPT-4.5 se comporte de manière cohérente avec ses directives de sécurité et d'éthique prévues, même face à des tentatives de contournement de ces règles grâce à des entrées utilisateur intelligemment conçues. En priorisant les messages système, OpenAI vise à améliorer la fiabilité et la sécurité du modèle dans diverses applications [1] [2].

Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-messages-how-to-use-them-real-world-experiments-prompt-injection-protecteurs
[3] https://platform.openai.com/docs/guides/prompt-ingineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited-tgel-users-and-even-plus-users-it-literally-barely gives-you-5-messages-in-5-6-hours-to-the-free-users/769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-sto-plus-and-team-users-next-week-the-to-enterprise-et-edu-users-the-suivant week-week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_efficient_prompt_for_summarising_gpt4/