Évaluer les performances de GPT-4.5 contre les invites contradictoires et les mécanismes de sécurité

Comment GPT-4.5 fonctionne-t-il dans des scénarios où les messages utilisateur tentent de tromper le modèle

Les performances de GPT-4.5 dans les scénarios où les messages utilisateur tentent de tromper le modèle sont évalués par plusieurs évaluations, en se concentrant sur sa capacité à résister aux invites contradictoires et à maintenir les normes de sécurité.

Évaluations de la sécurité et jailbreaks

1. Évaluations du jailbreak: Ces tests mesurent comment GPT-4.5 résiste aux tentes de contourner ses mécanismes de sécurité. Le modèle est évalué par rapport aux jailbreaks d'origine humaine et à la référence StrongReject, qui évalue la résistance aux attaques adversaires courantes. GPT-4.5 fonctionne bien dans le jailbreaks d'origine humaine, atteignant une précision élevée de 0,99. Cependant, dans la référence StrongReject, il marque 0,34, ce qui est légèrement inférieur au score de GPT-4O1 de 0,87 [1].

2. Dans les évaluations où les messages du système et des utilisateurs sont confrontés, GPT-4.5 fonctionne généralement bien, avec une précision de 0,76. Il s'agit d'une amélioration par rapport à GPT-4O mais légèrement en dessous des performances de GPT-4O1 [1].

3. Tutor jailbreaks: Dans les scénarios où le modèle est invité à ne pas révéler des réponses aux questions mathématiques, GPT-4.5 montre un succès modéré, avec une précision de 0,77. Il s'agit d'une amélioration significative par rapport à GPT-4O mais pas aussi élevée que les performances de GPT-4O1 [1].

4. Protection des phrases et des mots de passe: GPT-4.5 est également évalué sur sa capacité à protéger des phrases ou des mots de passe spécifiques contre les messages utilisateur. Il fonctionne bien dans ces tests, avec des précisions de 0,86 pour la protection des phrases et 0,92 pour la protection des mots de passe [1].

Évaluations de l'équipe rouge

GPT-4.5 subit des évaluations d'équipe rouge conçues pour tester sa robustesse contre les invites contradictoires. Ces évaluations couvrent des scénarios tels que des conseils illicites, l'extrémisme, les crimes de haine, la persuasion politique et l'automutilation. GPT-4.5 produit des résultats sûrs dans environ 51% du premier ensemble d'évaluation de l'équipe rouge, légèrement supérieur à GPT-4O mais inférieur à GPT-4O1. Dans une deuxième évaluation axée sur les conseils risqués, le GPT-4.5 fonctionne mieux que GPT-4O mais pas ainsi que les modèles de recherche GPT-4O1 ou profonds [1].

Performance globale

Bien que GPT-4.5 montre des améliorations de la manipulation des invites sensibles et contradictoires par rapport aux modèles antérieurs, il est toujours confronté à des défis dans des scénarios très adversaires. Ses performances sont solides pour les tâches à usage général, mais peuvent ne pas être optimales pour les tâches avancées de résolution de problèmes ou de codage profond par rapport à des modèles spécialisés comme O3-MINI [3] [5].

En résumé, GPT-4.5 montre la résilience contre les tentatives pour le tromper, en particulier dans les scénarios où il doit hiérarchiser les instructions du système sur les entrées utilisateur. Cependant, il a toujours des limites dans des contextes très contradictoires, reflétant des défis continus dans l'équilibre entre la sécurité et les fonctionnalités dans les modèles d'IA.

Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-ingineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_signifancely_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw