GPT-4.5: Amélioration des performances de la gestion des instructions conflictuelles

Comment les performances de GPT-4.5 se comparent-elles aux versions antérieures pour gérer les instructions conflictuelles

GPT-4.5 montre des performances améliorées dans la gestion des instructions contradictoires par rapport aux versions antérieures, en particulier grâce à sa hiérarchie d'instructions améliorée. Cette fonction permet au modèle de hiérarchiser les messages système sur les entrées utilisateur, d'atténuer les risques associés aux injections rapides et à d'autres attaques qui pourraient remplacer les instructions de sécurité.

Dans les évaluations impliquant des types de messages contradictoires, GPT-4.5 surpasse généralement GPT-4O. Le modèle est formé pour suivre les instructions dans le message la plus élevée de priorité, ce qui aide dans les scénarios où le système et les messages utilisateur sont confrontés à un conflit. Par exemple, dans un scénario où le modèle est invité à ne pas donner la réponse à une question mathématique, GPT-4.5 montre une meilleure adhésion à ces instructions du système par rapport à GPT-4O, bien qu'elle ne dépasse pas GPT-4O1 dans toutes les évaluations [1].

De plus, GPT-4.5 a été évalué dans des scénarios où il doit protéger des phrases ou des mots de passe spécifiques contre les invites utilisateur. Dans ces évaluations, GPT-4.5 fonctionne bien, indiquant sa capacité à maintenir la sécurité et à suivre les instructions du système même face à des entrées utilisateur contradictoires [1].

Cependant, bien que GPT-4.5 améliore les modèles antérieurs dans la gestion des instructions contradictoires, il est toujours confronté à des défis dans certains scénarios complexes. Les performances du modèle dans les évaluations de l'équipe rouge, qui simulent les incitations adversaires, montrent qu'elle peut produire des sorties dangereuses dans certains cas, bien qu'elle fonctionne généralement mieux que GPT-4O dans ces tests difficiles [1].

Dans l'ensemble, les améliorations de GPT-4.5 dans la gestion des instructions contradictoires en font un choix plus fiable pour les applications nécessitant un respect strict des directives de sécurité et des instructions système.

Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-compared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchsenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-onsider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_signifancely_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/Chatgpt-45-Model-openai-reasoning