Comment GPT-4.5 gère les messages contradictoires avec hiérarchie d'instructions et réglage fin

Quelles techniques spécifiques que GPT-4.5 utilise pour gérer les messages contradictoires

GPT-4.5 utilise plusieurs techniques pour gérer les messages contradictoires, en particulier grâce à son système de hiérarchie d'instructions. Cette hiérarchie établit une commande prioritaire pour les messages, garantissant que les messages système sont prioritaires sur les messages utilisateur, l'historique de la conversation et les sorties d'outils [1] [2].

Hiérarchie d'instructions

1. Messages système par rapport aux messages utilisateur: GPT-4.5 est formé pour suivre les instructions des messages système sur les messages utilisateur contradictoires. Ceci est crucial dans les scénarios où les entrées des utilisateurs peuvent tenter de remplacer les directives de sécurité ou les règles de formatage défini par le système [1] [2].

2. Résolution des conflits: le modèle est évalué sur sa capacité à résoudre les conflits entre les différents types de messages. Par exemple, si un message système demande au modèle de ne pas révéler une phrase ou un mot de passe spécifique, et qu'un message utilisateur tente de tromper le modèle à le faire, GPT-4.5 est conçu pour adhérer aux instructions du message système [1].

3. Formation et évaluation: GPT-4.5 suit une formation et une évaluation approfondies pour s'assurer qu'elle peut gérer des scénarios complexes où les messages du système et des utilisateurs sont confrontés à des conflits. Cela comprend des scénarios où le modèle doit choisir entre le suivi d'une instruction système ou d'une demande d'un utilisateur qui le contredit [1] [2].

a fini au réglage (SFT)

GPT-4.5 utilise également un réglage fin supervisé (SFT), qui consiste à former le modèle sur des exemples spécifiques où des messages contradictoires sont présents. Cette technique permet d'améliorer la capacité du modèle à reconnaître et à hiérarchiser les instructions du système sur les entrées des utilisateurs, en améliorant ses performances dans la gestion des scénarios contradictoires [3].

Nouvelles techniques d'alignement

De plus, GPT-4.5 intègre de nouvelles techniques d'alignement qui améliorent sa compréhension des préférences humaines et de l'intention. Ces techniques aident le modèle à mieux interpréter le contexte et l'intention derrière les messages du système et de l'utilisateur, ce qui lui permet de prendre des décisions plus éclairées lors du traitement des conflits [5].

Dans l'ensemble, l'approche de GPT-4.5 pour gérer les messages contradictoires combine des méthodes de formation avancées avec une hiérarchie structurée d'instructions pour s'assurer que le modèle hiérarchise la sécurité et l'adhésion aux directives du système.

Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://arxiv.org/html/2502.08745v1
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-structure/1025132
[5] https://venturebeat.com/ai/openai-releases-gpt-4-5/
[6] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[7] https://openai.com/index/introducing-gpt-4-5/
[8] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_signifancely_and/