GPT-4.5 montre des améliorations spécifiques par rapport à GPT-4O pour gérer les messages contradictoires via sa hiérarchie d'instructions améliorée. Cette fonction permet au modèle de hiérarchiser les messages système sur les messages utilisateur, à atténuer le risque d'injections rapides et d'autres attaques qui pourraient remplacer les instructions de sécurité. Voici les principales améliorations:
1. Évaluation de la hiérarchie des instructions: Dans les évaluations où différents types de messages entrent en conflit les uns avec les autres, GPT-4.5 est formé pour suivre les instructions dans le message le plus prioritaire. Cela aide le modèle à mieux gérer les scénarios où les entrées utilisateur peuvent tenter de contourner les protocoles de sécurité.
2. Résolution des conflits: GPT-4.5 surpasse généralement le GPT-4O dans les évaluations impliquant des conflits entre les messages système et utilisateur. Cette amélioration est cruciale pour maintenir la sécurité et l'adhésion aux directives dans des scénarios conversationnels complexes.
3. Tutor jailbreaks: Dans un scénario spécifique où le modèle agit comme un tuteur en mathématiques, GPT-4.5 est chargé de ne pas révéler la réponse à une question mathématique. Bien que le GPT-4.5 ne surpasse pas GPT-4O dans cette évaluation particulière (la précision de GPT-4O est plus élevée), il démontre toujours la robustesse dans la résistance aux tentatives pour le faire pour fournir des informations non autorisées.
4. Protection des phrases et des mots de passe: GPT-4.5 montre des performances solides dans la protection de phrases ou de mots de passe spécifiques contre les invites utilisateur. Cela indique une meilleure capacité à maintenir la confidentialité et à respecter les directives de sécurité par rapport à certains modèles précédents.
Dans l'ensemble, les améliorations de GPT-4.5 dans la gestion des messages contradictoires font partie de ses améliorations plus larges en matière de sécurité, de nuances et de collaboration, ce qui le rend plus efficace pour maintenir des interactions sûres et appropriées [1] [3].
Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.techtarget.com/whatis/feature/gpt-4o-explayé-everything-you-need-to-know
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchentiterpriseai/feature/gpt-4ovs-gpt-4-how-o-yy-compare
[5] https://www.businessinsider.com/openai-sam-altman-leleases-gpt-4-5-emotionally-intelligent-model-2025-2
[6] https://litslink.com/blog/gpt-4o-all-you-sould-know-about-the-update-and-new-tools
[7] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/188t13h/gpt4_has_a_limit_of_40_messages3_hours_now/