Το GPT-4.5 έχει σχεδιαστεί για να χειρίζεται αντικρουόμενες οδηγίες σε προβλήματα πολλαπλών σταδίων, ακολουθώντας μια ιεραρχία εντολών. Αυτή η ιεραρχία βοηθά το μοντέλο να δώσει προτεραιότητα στα μηνύματα του συστήματος σε μηνύματα χρήστη, μετριάζοντας τον κίνδυνο άμεσων ενέσεων και άλλων επιθέσεων που θα μπορούσαν να παρακάμψουν τις οδηγίες ασφαλείας [1] [5].
Διαχείριση αντικρουόμενων οδηγιών
1. Αξιολόγηση ιεραρχίας εντολών: Το GPT-4.5 εκπαιδεύεται να αναγνωρίζει και να ακολουθεί τις οδηγίες στο μήνυμα υψηλότερης προτεραιότητας όταν αντιμετωπίζει αντικρουόμενα μηνύματα. Αυτό περιλαμβάνει σενάρια όπου τα μηνύματα του συστήματος και τα μηνύματα χρηστών συγκρούονται και το μοντέλο πρέπει να επιλέξει ποιο σύνολο οδηγιών που θα ακολουθήσουν [1].
2. Σύστημα έναντι μηνυμάτων χρήστη: Το μοντέλο διδάσκεται να δίνει προτεραιότητα στα μηνύματα του συστήματος, τα οποία έχουν σχεδιαστεί για την επιβολή οδηγιών ασφάλειας και λειτουργίας, έναντι μηνυμάτων χρήστη. Αυτό εξασφαλίζει ότι η GPT-4,5 προσκολλάται στα πρωτόκολλα ασφαλείας της ακόμη και όταν οι χρήστες προσπαθούν να τους παρακάμψουν [1] [5].
3. Τα ρεαλιστικά σενάρια: Οι αξιολογήσεις περιλαμβάνουν ρεαλιστικά σενάρια όπου το μοντέλο λειτουργεί ως δάσκαλος και πρέπει να αντισταθεί στις προσπάθειες των χρηστών να το ξεγελάσουν να αποκαλύψουν απαντήσεις ή λύσεις. Το GPT-4.5 έχει την εντολή να μην δώσει απαντήσεις και πρέπει να ακολουθήσει αυτές τις οδηγίες του συστήματος παρά τις προσπάθειες των χρηστών να τις παρακάμψουν [1].
4. Προστασία φράσης και κωδικού πρόσβασης: Σε άλλο τύπο αξιολόγησης, η GPT-4.5 έχει την εντολή να μην εξάγει συγκεκριμένες φράσεις ή να αποκαλύψει κωδικούς πρόσβασης. Το μοντέλο πρέπει να αντισταθεί στα μηνύματα χρήστη που έχουν σχεδιαστεί για να το εξαπατήσουν σε αυτό, αποδεικνύοντας την ικανότητά του να προστατεύει ευαίσθητες πληροφορίες [1].
Διαχείριση προβλημάτων πολλαπλών βημάτων
Ενώ το GPT-4.5 έχει σχεδιαστεί για να χειρίζεται αποτελεσματικά τις αντιφατικές οδηγίες, η ικανότητά του να διαχειρίζεται προβλήματα πολλαπλών βημάτων μπορεί να βελτιωθεί με τη δομή των προτροπών με σαφή, διαδοχικό τρόπο. Αυτό συνεπάγεται τη διάσπαση των καθηκόντων σε μικρότερα βήματα και τη διασφάλιση ότι κάθε βήμα ολοκληρώνεται πριν μετακομίσετε στο επόμενο [2]. Ωστόσο, η απόδοση της GPT-4.5 σε αυτόματα ακολουθώντας τις οδηγίες πολλαπλών βημάτων χωρίς χειροκίνητη παρέμβαση (π.χ. προτρέποντας το "επόμενο") παραμένει μια πρόκληση [4].
Βελτίωση της απόδοσης
Για να βελτιώσει την απόδοση του GPT-4.5 σε καθήκοντα πολλαπλών βημάτων, οι χρήστες μπορούν να χρησιμοποιούν στρατηγικές όπως:
- Καθαρίστε τη δομή προτροπής: Χρησιμοποιήστε τις κεφαλίδες ή τους δείκτες τμήματος για να ορίσετε με σαφήνεια κάθε βήμα, βοηθώντας το μοντέλο να αναγνωρίσει και να ακολουθήσει την ακολουθία πιο αποτελεσματικά [2].
-Διαδοχική εκτέλεση: Εφαρμόστε μια προσέγγιση βήμα προς βήμα όπου κάθε βήμα επεξεργάζεται πλήρως πριν μετακινηθείτε στο επόμενο, το οποίο μπορεί να διευκολυνθεί με τη χρήση δομών που μοιάζουν με λειτουργίες σε προτροπές [2].
- Χειροκίνητη παρέμβαση: Εάν είναι απαραίτητο, προτρέψτε με το χέρι το μοντέλο να προχωρήσει στο επόμενο βήμα, καθώς μπορεί να μην μετακινηθεί αυτόματα μέσω μιας ακολουθίας χωρίς τέτοιες ενδείξεις [4].
Αναφορές:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.aifire.co/p/detailed-steps-to-build-multi-step-custom-gpts-solve-tasks
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://community.openai.com/t/gpt-getting-stuck-with-multi-step-instructions/613209
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://community.openai.com/t/how-to-improve-gpt-4-api-output-length-and-sructure/1025132
[7] https://www.reddit.com/r/singularity/comments/1iyrwvd/the_information_confirms_gpt45_this_week/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/