Το GPT-4.5 έχει σχεδιαστεί για να χειρίζεται αντικρουόμενες οδηγίες μεταξύ μηνυμάτων συστήματος και χρήστη μέσω μιας ιεραρχίας οδηγιών. Αυτή η ιεραρχία βοηθά το μοντέλο να δώσει προτεραιότητα στα μηνύματα του συστήματος σχετικά με τα μηνύματα χρήστη για να μετριάσει τους κινδύνους που σχετίζονται με αντικρουόμενες προτροπές, όπως άμεσες ενέσεις ή άλλες επιθέσεις που θα μπορούσαν να αντικαταστήσουν τις οδηγίες ασφαλείας του μοντέλου.
βασικά χαρακτηριστικά της ιεραρχίας εντολών
1. Ταξινόμηση μηνυμάτων: Το GPT-4.5 διακρίνει μεταξύ δύο τύπων μηνυμάτων: μηνύματα συστήματος και μηνύματα χρήστη. Τα μηνύματα του συστήματος θεωρούνται ανώτερη αρχή και χρησιμοποιούνται για τον καθορισμό οδηγιών ασφαλείας ή συγκεκριμένες οδηγίες για το μοντέλο.
2. Επίλυση συγκρούσεων: Όταν η σύγκρουση μηνυμάτων συστήματος και χρηστών, το GPT-4.5 εκπαιδεύεται να ακολουθεί τις οδηγίες στο μήνυμα του συστήματος. Αυτό εξασφαλίζει ότι το μοντέλο συμμορφώνεται με τις οδηγίες ασφαλείας και δεν συμμετέχει σε επιβλαβείς ή απαγορευμένες δραστηριότητες.
3. Αξιολόγηση και κατάρτιση: Το μοντέλο αξιολογείται σχετικά με την ικανότητά του να χειρίζεται συγκρούσεις μέσω διαφόρων σεναρίων. Για παράδειγμα, σε ένα σενάριο όπου το μοντέλο έχει οδηγίες να μην δώσει την απάντηση σε ένα πρόβλημα μαθηματικών (μήνυμα συστήματος) και ο χρήστης προσπαθεί να το ξεγελάσει σε αυτό (μήνυμα χρήστη), το GPT-4.5 πρέπει να αντισταθεί στην προσπάθεια του χρήστη και να ακολουθήσει την οδηγία του συστήματος.
4. Απόδοση: Το GPT-4.5 γενικά εκτελεί καλά σε αυτές τις αξιολογήσεις, παρουσιάζοντας βελτίωση σε σχέση με προηγούμενα μοντέλα όπως το GPT-4O στη διαχείριση των συγκρούσεων μηνυμάτων συστήματος-χρήστη. Ωστόσο, υπάρχουν συγκεκριμένα σενάρια όπου δεν μπορεί να εκτελέσει καθώς και GPT-4O ή GPT-4O1, όπως σε ορισμένες δοκιμές jailbreak όπου είναι εξαπατημένη στην αποκάλυψη πληροφοριών δεν πρέπει [1] [7].
Αξιολογήσεις ασφαλείας
Το GPT-4.5 υφίσταται αυστηρές αξιολογήσεις ασφαλείας για να εξασφαλίσει ότι δεν δημιουργεί απαγορευμένο περιεχόμενο, όπως μίσους ή παράνομες συμβουλές. Αυτές οι αξιολογήσεις αξιολογούν επίσης την τάση του μοντέλου να υπερβεί τις καλοήθεις προτροπές που σχετίζονται με θέματα ασφαλείας. Η απόδοση του μοντέλου σε αυτές τις περιοχές είναι κρίσιμη για τη διατήρηση της ασφάλειας και της αξιοπιστίας του κατά τη διαχείριση αντικρουόμενων οδηγιών [1].
μοντέλο προδιαγραφών και επίπεδα εξουσίας
Οι προδιαγραφές μοντέλων περιγράφουν τα επίπεδα αρχής για διαφορετικούς τύπους οδηγιών, με οδηγίες σε επίπεδο πλατφόρμας να έχουν την υψηλότερη εξουσία, ακολουθούμενη από οδηγίες προγραμματιστή και χρήστη. Αυτή η ιεραρχία εξασφαλίζει ότι η GPT-4,5 δίνει προτεραιότητα στην ασφάλεια και τηρούν τις κατευθυντήριες γραμμές, ενώ παράλληλα επιτρέπει την προσαρμογή από τους χρήστες και τους προγραμματιστές εντός των ορίων [2] [5].
Συνολικά, η ικανότητα του GPT-4.5 να χειρίζεται αντικρουόμενες οδηγίες αποτελεί βασική πτυχή του σχεδιασμού του, εξασφαλίζοντας ότι διατηρεί την ασφάλεια και την ακεραιότητα ενώ αλληλεπιδρά με τους χρήστες.
Αναφορές:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://model-spec.openai.com
[3] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286
[4] https://arxiv.org/html/2408.10943v1
[5] https://bgr.com/tech/chatgpt-ai-will-finally-start-covering-controversial-topics/
[6] https://fortune.com/2025/02/14/sam-altman-openai-plans-gpt-5-release-timelines/
[7] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[8] https://www.reddit.com/r/openai/comments/197exmm/gpt4_has_only_been_getting_worse/