GPT-4.5 Hiérarchie d'instructions: Gestion des messages contradictoires

Comment GPT-4.5 gère-t-il les instructions contradictoires entre les messages système et utilisateur

GPT-4.5 est conçu pour gérer les instructions conflictuelles entre les messages système et utilisateur via une hiérarchie d'instructions. Cette hiérarchie aide le modèle à hiérarchiser les messages système par rapport aux messages utilisateur afin d'atténuer les risques associés aux invites contradictoires, telles que des injections invites ou d'autres attaques qui pourraient remplacer les instructions de sécurité du modèle.

Caractéristiques clés de la hiérarchie d'instructions

1. Classification des messages: GPT-4.5 distingue deux types de messages: messages système et messages utilisateur. Les messages système sont considérés comme une autorité supérieure et sont utilisés pour définir des directives de sécurité ou des instructions spécifiques pour le modèle.

2. Cela garantit que le modèle adhère aux directives de sécurité et ne s'engage pas dans des activités nuisibles ou interdites.

3. Évaluation et formation: le modèle est évalué sur sa capacité à gérer les conflits à travers divers scénarios. Par exemple, dans un scénario où le modèle est invité à ne pas donner la réponse à un problème de mathématiques (message système), et l'utilisateur essaie de le faire pour le faire (message de l'utilisateur), GPT-4.5 doit résister à la tentative de l'utilisateur et suivre l'instruction du système.

4. Performance: GPT-4.5 fonctionne généralement bien dans ces évaluations, montrant une amélioration par rapport aux modèles précédents tels que GPT-4O dans la gestion des conflits de messages d'utilisation du système. Cependant, il existe des scénarios spécifiques où il peut ne pas fonctionner ainsi que GPT-4O ou GPT-4O1, comme dans certains tests de jailbreak où il est trompé dans des informations révélatrices qu'elle ne devrait pas [1] [7].

Évaluations de la sécurité

GPT-4.5 subit des évaluations de sécurité rigoureuses pour s'assurer qu'elle ne génère pas de contenu interdite, tels que des conseils haineux ou illicites. Ces évaluations évaluent également la tendance du modèle à surreger les invites bénignes liées aux sujets de sécurité. Les performances du modèle dans ces domaines sont essentielles pour maintenir sa sécurité et sa fiabilité lors de la gestion des instructions contradictoires [1].

Modèle de spécifications et de niveaux d'autorité

Le modèle Spec décrit les niveaux d'autorité pour différents types d'instructions, avec des instructions au niveau de la plate-forme ayant la plus haute autorité, suivie des instructions du développeur et des utilisateurs. Cette hiérarchie garantit que GPT-4.5 hiérarte la sécurité et adhère aux directives tout en permettant la personnalisation par les utilisateurs et les développeurs dans les limites de définition [2] [5].

Dans l'ensemble, la capacité de GPT-4.5 à gérer les instructions conflictuelles est un aspect clé de sa conception, garantissant qu'il maintient la sécurité et l'intégrité tout en interagissant avec les utilisateurs.

Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-scc.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-ctretroversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/