Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Comment GPT-4.5 gére-t-il les instructions contradictoires dans les problèmes en plusieurs étapes


Comment GPT-4.5 gére-t-il les instructions contradictoires dans les problèmes en plusieurs étapes


GPT-4.5 est conçu pour gérer les instructions conflictuelles dans les problèmes en plusieurs étapes en adhérant à une hiérarchie d'instructions. Cette hiérarchie aide le modèle à hiérarchiser les messages système sur les messages utilisateur, à atténuer le risque d'injections rapides et d'autres attaques qui pourraient remplacer les instructions de sécurité [1] [5].

Gestion des instructions contradictoires

1. Évaluation de la hiérarchie d'instructions: GPT-4.5 est formé pour reconnaître et suivre les instructions dans le message le plus élevé de priorité face à des messages conflictuels. Cela inclut des scénarios où les messages système et les messages utilisateur sont confrontés, et le modèle doit choisir quel ensemble d'instructions à suivre [1].

2. Système vs messages utilisateur: le modèle est enseigné à la priorité aux messages système, qui sont conçus pour appliquer les directives de sécurité et opérationnelles, sur les messages utilisateur. Cela garantit que GPT-4.5 adhère à ses protocoles de sécurité même lorsque les utilisateurs tentent de les contourner [1] [5].

3. Scénarios réalistes: les évaluations incluent des scénarios réalistes où le modèle agit comme un tuteur et doit résister aux tentatives des utilisateurs de le tromper en réponses ou solutions révélatrices. GPT-4.5 est chargé de ne pas donner de réponses, et il doit suivre ces instructions du système malgré les tentatives des utilisateurs de les contourner [1].

4. Protection des phrases et des mots de passe: Dans un autre type d'évaluation, GPT-4.5 est invité à ne pas sortir des phrases spécifiques ou révéler des mots de passe. Le modèle doit résister aux messages utilisateur conçus pour le faire pour le faire, démontrant sa capacité à protéger les informations sensibles [1].

Gestion des problèmes en plusieurs étapes

Bien que GPT-4.5 soit conçu pour gérer efficacement les instructions contradictoires, sa capacité à gérer les problèmes en plusieurs étapes peut être améliorée en structurant des invites de manière claire et séquentielle. Cela implique de briser les tâches en étapes plus petites et de s'assurer que chaque étape est terminée avant de passer à la suivante [2]. Cependant, les performances de GPT-4.5 en suivant automatiquement les instructions en plusieurs étapes sans intervention manuelle (par exemple, invitant "suivant") reste un défi [4].

Amélioration des performances

Pour améliorer les performances de GPT-4.5 dans les tâches en plusieurs étapes, les utilisateurs peuvent utiliser des stratégies telles que:

- Effacer la structure de l'invite: utilisez des en-têtes ou des marqueurs de section pour définir clairement chaque étape, en aidant le modèle à reconnaître et à suivre la séquence plus efficacement [2].
- Exécution séquentielle: implémentez une approche étape par étape où chaque étape est entièrement traitée avant de passer à la suivante, qui peut être facilitée en utilisant des structures de type fonction dans des invites [2].
- Intervention manuelle: si nécessaire, invitez manuellement le modèle à passer à l'étape suivante, car il ne peut pas se déplacer automatiquement à travers une séquence sans ces indices [4].

Citations:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.aifire.co/p/detailed-steps-to-build-multi-step-constom-gpts-solve-tasks
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://community.openai.com/t/gpt-getting-stuck-with-multi-step-instructions/613209
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-structure/1025132
[7] https://www.reddit.com/r/singularity/comments/1iyrwvd/the_information_confirmes_gpt45_this_week/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/