GPT-4.5 montre des performances améliorées dans la gestion des instructions contradictoires par rapport aux versions antérieures, en particulier grâce à son adhésion améliorée à une hiérarchie d'instructions. Cette hiérarchie permet au modèle de hiérarchiser les messages système sur les entrées utilisateur, à l'atténuation des risques à partir d'invites contradictoires. Dans les évaluations, GPT-4.5 surpasse généralement le GPT-4O dans les scénarios où les messages du système et de l'utilisateur sont confrontés à une meilleure capacité à suivre les instructions de sécurité et à éviter d'être trompé par des invites adversaires [1] [5].
Améliorations clés dans la gestion des instructions contradictoires
1. Évaluation de la hiérarchie d'instructions: GPT-4.5 montre une précision améliorée dans les instructions du système suivant sur les messages utilisateur. Par exemple, dans un scénario où le modèle est invité à ne pas donner la réponse à une question mathématique, GPT-4.5 fonctionne mieux que GPT-4O, mais pas aussi bien que GPT-4O1 [1].
2. Atténuation des injections rapides: En priorisent les messages du système, GPT-4.5 réduit le risque d'injections rapides et d'autres attaques qui pourraient remplacer ses instructions de sécurité. Ceci est crucial pour maintenir l'intégrité du modèle et prévenir une mauvaise utilisation [1] [5].
3. Scénarios réalistes: Dans des scénarios plus réalistes, comme lorsqu'ils agissent en tant que tuteur en mathématiques, GPT-4.5 est mieux pour résister aux tentatives de la inciter à fournir des informations non autorisées. Cependant, ses performances ne sont pas parfaites et peuvent varier en fonction du contexte spécifique et des instructions fournies [1].
4. Évaluations de la sécurité: GPT-4.5 subit des évaluations de sécurité rigoureuses pour s'assurer qu'elle ne respecte pas les demandes de contenu nocif. Bien qu'il fonctionne bien dans le refus de contenu dangereux, il peut trop réfuser les modèles antérieurs, indiquant une approche prudente de la gestion des invites ambiguës ou potentiellement risquées [1].
Dans l'ensemble, le GPT-4.5 offre des améliorations significatives dans la gestion des instructions contradictoires en adhérant plus étroitement aux directives du système et en réduisant l'impact des entrées pour les utilisateurs contradictoires. Cependant, comme tous les modèles d'IA, il n'est pas à l'abri de toutes les formes de manipulation et continue d'évoluer avec les évaluations et les mises à jour de la sécurité en cours [1] [5].
Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchsenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-onsider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_signifancely_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/Chatgpt-45-Model-openai-reasoning