Οι βελτιώσεις GPT-4.5 στο χειρισμό αντικρουόμενων οδηγιών και βελτιώσεων ασφάλειας

Πώς συγκρίνεται η απόδοση του GPT-4.5 με προηγούμενες εκδόσεις στον χειρισμό αντιφατικών οδηγιών

Το GPT-4.5 καταδεικνύει βελτιωμένη απόδοση στον χειρισμό αντιφατικών οδηγιών σε σύγκριση με προηγούμενες εκδόσεις, ιδιαίτερα μέσω της ενισχυμένης προσκόλλησής της σε μια ιεραρχία εντολών. Αυτή η ιεραρχία επιτρέπει στο μοντέλο να δίνει προτεραιότητα στα μηνύματα του συστήματος σχετικά με τις εισόδους των χρηστών, μετριάζοντας τους κινδύνους από αντικρουόμενες προτροπές. Στις αξιολογήσεις, το GPT-4.5 γενικά ξεπερνά το GPT-4O σε σενάρια όπου συγκρούονται τα μηνύματα του συστήματος και των χρηστών, υποδεικνύοντας καλύτερη ικανότητα να ακολουθούν τις οδηγίες ασφαλείας και να αποφεύγουν να εξαπατηθούν από αντιφατικές προτροπές [1] [5].

βασικές βελτιώσεις στον χειρισμό αντικρουόμενων οδηγιών

1. Αξιολόγηση ιεραρχίας εντολών: Το GPT-4.5 δείχνει βελτιωμένη ακρίβεια στις ακόλουθες οδηγίες του συστήματος έναντι των μηνυμάτων χρήστη. Για παράδειγμα, σε ένα σενάριο όπου το μοντέλο έχει την εντολή να μην δώσει την απάντηση σε μια ερώτηση μαθηματικών, το GPT-4.5 εκτελεί καλύτερα από το GPT-4O, αν και όχι τόσο καλά όσο το GPT-4O1 [1].

2. Μεταμβανισμός των άμεσων ενέσεων: Με την ιεράρχηση των μηνυμάτων του συστήματος, η GPT-4.5 μειώνει τον κίνδυνο άμεσης ενέσεων και άλλων επιθέσεων που θα μπορούσαν να παρακάμψουν τις οδηγίες ασφαλείας του. Αυτό είναι ζωτικής σημασίας για τη διατήρηση της ακεραιότητας του μοντέλου και την πρόληψη της κατάχρησης [1] [5].

3 ρεαλιστικά σενάρια: Σε πιο ρεαλιστικά σενάρια, όπως όταν ενεργείτε ως δάσκαλος μαθηματικών, το GPT-4.5 είναι καλύτερο να αντισταθεί στις προσπάθειες να το ξεγελάσει στην παροχή μη εξουσιοδοτημένων πληροφοριών. Ωστόσο, η απόδοσή του δεν είναι τέλεια και μπορεί να ποικίλει ανάλογα με το συγκεκριμένο πλαίσιο και τις οδηγίες που παρέχονται [1].

4. Αξιολογήσεις ασφαλείας: Η GPT-4,5 υφίσταται αυστηρές αξιολογήσεις ασφαλείας για να διασφαλίσει ότι δεν συμμορφώνεται με τα αιτήματα για επιβλαβές περιεχόμενο. Ενώ εκτελεί καλά την άρνηση μη ασφαλούς περιεχομένου, μπορεί να υπερηφανεύεται περισσότερο από τα προηγούμενα μοντέλα, υποδεικνύοντας μια προσεκτική προσέγγιση για τον χειρισμό διφορούμενων ή δυνητικά επικίνδυνων προτροπών [1].

Συνολικά, το GPT-4.5 προσφέρει σημαντικές βελτιώσεις στον χειρισμό αντιφατικών οδηγιών, ακολουθώντας πιο στενά τις οδηγίες του συστήματος και μειώνοντας τις επιπτώσεις των εισροών χρηστών αντιπαράθεσης. Ωστόσο, όπως όλα τα μοντέλα AI, δεν είναι ανοσοποιητικό σε όλες τις μορφές χειραγώγησης και συνεχίζει να εξελίσσεται με συνεχιζόμενες αξιολογήσεις ασφαλείας και ενημερώσεις [1] [5].

Αναφορές:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-ompared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significary_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning