GPT-4.5: Βελτιωμένη απόδοση στο χειρισμό αντιφατικών οδηγιών

Πώς συγκρίνεται η απόδοση του GPT-4.5 με προηγούμενες εκδόσεις στον χειρισμό αντιφατικών οδηγιών

Το GPT-4.5 καταδεικνύει βελτιωμένη απόδοση στον χειρισμό αντικρουόμενων οδηγιών σε σύγκριση με προηγούμενες εκδόσεις, ιδιαίτερα μέσω της ενισχυμένης ιεραρχίας διδασκαλίας. Αυτή η λειτουργία επιτρέπει στο μοντέλο να δίνει προτεραιότητα στα μηνύματα του συστήματος σχετικά με τις εισόδους των χρηστών, να μετριάσει τους κινδύνους που σχετίζονται με τις άμεσες ενέσεις και άλλες επιθέσεις που ενδέχεται να υπερισχύουν των οδηγιών ασφαλείας.

Σε αξιολογήσεις που περιλαμβάνουν αντικρουόμενους τύπους μηνυμάτων, το GPT-4.5 γενικά ξεπερνά το GPT-4O. Το μοντέλο εκπαιδεύεται για να ακολουθεί τις οδηγίες στο μήνυμα υψηλότερης προτεραιότητας, το οποίο βοηθά σε σενάρια όπου συγκρούονται τα μηνύματα του συστήματος και των μηνυμάτων χρηστών. Για παράδειγμα, σε ένα σενάριο όπου το μοντέλο έχει οδηγίες να μην δώσει την απάντηση σε μια ερώτηση μαθηματικών, το GPT-4.5 δείχνει καλύτερη προσκόλληση σε αυτές τις οδηγίες του συστήματος σε σύγκριση με το GPT-4O, αν και δεν ξεπερνά το GPT-4O1 σε όλες τις αξιολογήσεις [1].

Επιπλέον, το GPT-4.5 έχει αξιολογηθεί σε σενάρια όπου πρέπει να προστατεύει συγκεκριμένες φράσεις ή κωδικούς πρόσβασης να αποκαλυφθούν μέσω των προτροπών των χρηστών. Σε αυτές τις αξιολογήσεις, η GPT-4.5 εκτελεί καλά, υποδεικνύοντας την ικανότητά του να διατηρεί την ασφάλεια και να ακολουθεί τις οδηγίες του συστήματος ακόμη και όταν αντιμετωπίζει αντικρουόμενες εισόδους χρηστών [1].

Ωστόσο, ενώ η GPT-4,5 βελτιώνεται σε προηγούμενα μοντέλα στον χειρισμό των αντιφατικών οδηγιών, εξακολουθεί να αντιμετωπίζει προκλήσεις σε ορισμένα σύνθετα σενάρια. Οι επιδόσεις του μοντέλου σε ερυθρές αξιολογήσεις συνεργασίας, οι οποίες προσομοιώνουν την προτροπή της αντιπαράθεσης, δείχνουν ότι μπορεί να παράγει ανασφαλείς εξόδους σε ορισμένες περιπτώσεις, αν και γενικά εκτελεί καλύτερα από το GPT-4O σε αυτές τις προκλητικές δοκιμές [1].

Συνολικά, οι βελτιώσεις της GPT-4.5 στο χειρισμό των αντικρουόμενων οδηγιών καθιστούν μια πιο αξιόπιστη επιλογή για εφαρμογές που απαιτούν αυστηρή τήρηση των οδηγιών ασφαλείας και των οδηγιών του συστήματος.

Αναφορές:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://gettalkative.com/info/gpt-models-ompared
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significary_and/
[7] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[8] https://www.axios.com/2025/02/27/chatgpt-45-model-openai-reasoning