GPT-4.5 est conçu pour gérer les instructions contradictoires via une hiérarchie d'instructions, qui hiérarte les messages système par rapport aux messages utilisateur pour atténuer les risques tels que des injections rapides et d'autres attaques obligeant les instructions de sécurité [1]. Cependant, si GPT-4.5 peut s'adapter à de nouveaux types d'instructions contradictoires sur lesquelles il n'a pas été formé est une question complexe.
Formation et évaluation
Le GPT-4.5 a été formé à l'aide de nouvelles techniques de supervision combinées à des méthodes traditionnelles telles que le réglage fin supervisé (SFT) et l'apprentissage du renforcement de la rétroaction humaine (RLHF) [1]. Ces méthodes visent à améliorer l'alignement du modèle avec l'intention de l'utilisateur et sa capacité à suivre les instructions plus précisément. Le modèle a été évalué sur divers scénarios où les messages du système et des utilisateurs sont confrontés à des améliorations par rapport aux modèles précédents comme GPT-4O [1].
Adaptabilité aux nouvelles instructions conflictuelles
Alors que GPT-4.5 démontre de meilleures performances dans la gestion des types connus d'instructions contradictoires, sa capacité à s'adapter à des types de conflits entièrement nouveaux dépend de plusieurs facteurs:
1. Capacités de généralisation: la formation de GPT-4.5 comprend la mise à l'échelle d'un apprentissage non supervisé, ce qui améliore sa capacité à généraliser et à comprendre des contextes plus larges [1]. Cela pourrait potentiellement l'aider à reconnaître les modèles dans de nouvelles instructions conflictuelles.
2. Hiérarchie d'instructions: La hiérarchie d'instructions du modèle est conçue pour hiérarchiser les messages système, ce qui aide à maintenir la sécurité et l'adhésion aux règles prédéfinies. Cependant, si de nouvelles instructions conflictuelles ne relèvent pas de la portée de cette hiérarchie, le modèle pourrait avoir du mal à s'adapter sans formation supplémentaire ni réglage fin.
3. Cette approche peut aider à susciter des comportements au-delà de ce que le modèle a été explicitement formé pour [1].
4. Limites et évaluations de la sécurité: Malgré les améliorations, GPT-4.5 est toujours confronté à des défis dans la gestion des scénarios complexes ou nouveaux. Les évaluations de la sécurité ont montré que si le modèle fonctionne bien sur les tâches connues, il y a toujours un risque qu'il ne suivait pas les instructions dans des contextes imprévus [1].
Conclusion
Bien que GPT-4.5 soit plus capable que ses prédécesseurs dans la gestion des instructions contradictoires, son adaptabilité à des types de conflits entièrement nouveaux est limitée par ses données de formation et sa conception. Il peut nécessiter des stratégies supplémentaires de réglage fin ou d'incitation créative pour gérer efficacement les nouveaux scénarios. Les recherches en cours et les interactions utilisateur avec GPT-4.5 fourniront davantage de connaissances sur ses capacités et ses limites dans ce domaine.
Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://assets.anthropic.com/m/983c85a201a962f/original/alignment-deaking-in-laGe-Language-Models-full-paper.pdf
[3] https://latenode.com/blog/chatgpt-4-5-review
[4] https://arxiv.org/pdf/2203.02155.pdf
[5] https://www.theverge.com/news/620067/openai-gpt-4-5-nearly-here
[6] https://community.openai.com/t/gpt-4o-not-bouting-simple-and-clear-instructions/768674
[7] https://www.reddit.com/r/singularity/comments/1bgpmnv/lets_say_gpt45_releases_next_week_what_are_your/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_signifancely_and/