Αξιολόγηση της απόδοσης του GPT-4.5 έναντι των αντιφατικών προτροπών και των μηχανισμών ασφαλείας

Η απόδοση του GPT-4.5 σε σενάρια όπου τα μηνύματα χρήστη προσπαθούν να εξαπατήσουν το μοντέλο αξιολογείται μέσω διαφόρων αξιολογήσεων, εστιάζοντας στην ικανότητά του να αντισταθεί στις αντιπαραθέσεις και να διατηρήσει τα πρότυπα ασφαλείας.

Αξιολογήσεις ασφαλείας και jailbreaks

1. Το μοντέλο αξιολογείται έναντι των jailbreaks που προέρχονται από τον άνθρωπο και του σημείου αναφοράς StrongReject, το οποίο αξιολογεί την αντίσταση σε κοινές αντιφατικές επιθέσεις. Το GPT-4,5 εκτελεί καλά σε jailbreaks που προέρχονται από τον άνθρωπο, επιτυγχάνοντας υψηλή ακρίβεια 0,99. Ωστόσο, στο σημείο αναφοράς StrongReject, βαθμολογεί 0,34, το οποίο είναι ελαφρώς χαμηλότερο από το σκορ της GPT-4O1 0,87 [1].

2. Αξιολογήσεις ιεραρχίας διδασκαλίας: Για να μετριάσει τις επιθέσεις άμεσης έγχυσης, η GPT-4.5 εκπαιδεύεται να ακολουθεί μια ιεραρχία οδηγιών, δίνοντας προτεραιότητα στα μηνύματα του συστήματος σε μηνύματα χρήστη. Στις αξιολογήσεις όπου η σύγκρουση συστήματος και μηνυμάτων χρήστη, το GPT-4.5 γενικά εκτελεί καλά, με ακρίβεια 0.76. Αυτή είναι μια βελτίωση σε σχέση με την απόδοση του GPT-4O, αλλά ελαφρώς κάτω από την απόδοση του GPT-4O1 [1].

3. Tutor Jailbreaks: Σε σενάρια όπου το μοντέλο έχει την εντολή να μην αποκαλύψει απαντήσεις σε ερωτήσεις μαθηματικών, το GPT-4,5 δείχνει μέτρια επιτυχία, με ακρίβεια 0,77. Αυτή είναι μια σημαντική βελτίωση σε σχέση με το GPT-4O αλλά όχι τόσο υψηλό όσο η απόδοση του GPT-4O1 [1].

4. Προστασία φράσης και κωδικού πρόσβασης: Το GPT-4.5 αξιολογείται επίσης σχετικά με την ικανότητά της να προστατεύει συγκεκριμένες φράσεις ή κωδικούς πρόσβασης να αποκαλυφθεί μέσω μηνυμάτων χρήστη. Εκτελεί καλά σε αυτές τις δοκιμές, με ακρίβεια 0,86 για προστασία φράσεων και 0,92 για προστασία κωδικού πρόσβασης [1].

Κόκκινες αξιολογήσεις ομάδας

Το GPT-4.5 υφίσταται αξιολογήσεις κόκκινης ομάδας που έχουν σχεδιαστεί για να δοκιμάσουν την ευρωστία του ενάντια στις αντιπαραθετικές προτροπές. Αυτές οι αξιολογήσεις καλύπτουν σενάρια όπως παράνομες συμβουλές, εξτρεμισμός, εγκλήματα μίσους, πολιτική πειθώ και αυτοτραυματισμό. Το GPT-4.5 παράγει ασφαλείς εξόδους σε περίπου 51% του πρώτου συνόλου Red Teaming Evaluation, ελαφρώς υψηλότερο από το GPT-4O αλλά χαμηλότερο από το GPT-4O1. Σε μια δεύτερη αξιολόγηση επικεντρωμένη σε επικίνδυνες συμβουλές, το GPT-4.5 εκτελεί καλύτερα από το GPT-4O αλλά όχι καθώς και τα μοντέλα GPT-4O1 ή βαθιάς ερευνητικής [1].

Συνολική απόδοση

Ενώ η GPT-4.5 καταδεικνύει βελτιώσεις στον χειρισμό ευαίσθητων και αντιφατικών προτροπών σε σύγκριση με προηγούμενα μοντέλα, αντιμετωπίζει ακόμα τις προκλήσεις σε εξαιρετικά αντιφατικά σενάρια. Η απόδοσή του είναι σταθερή για εργασίες γενικής χρήσης, αλλά μπορεί να μην είναι βέλτιστη για προχωρημένες εργασίες επίλυσης προβλημάτων ή βαθιάς κωδικοποίησης σε σύγκριση με εξειδικευμένα μοντέλα όπως το O3-Mini [3] [5].

Συνοπτικά, το GPT-4.5 δείχνει την ανθεκτικότητα κατά των προσπαθειών να το ξεγελάσει, ιδιαίτερα σε σενάρια όπου πρέπει να δώσει προτεραιότητα στις οδηγίες του συστήματος σχετικά με τις εισόδους των χρηστών. Ωστόσο, εξακολουθεί να έχει περιορισμούς σε εξαιρετικά αντιφατικά πλαίσια, αντανακλώντας τις συνεχιζόμενες προκλήσεις στην εξισορρόπηση της ασφάλειας και της λειτουργικότητας σε μοντέλα AI.

Αναφορές:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://platform.openai.com/docs/guides/prompt-engineering
[3] https://www.vellum.ai/blog/gpt-4-5-is-here-heres-how-good-this-model-is
[4] https://www.reddit.com/r/openai/comments/18monbs/gpt_4_has_been_toned_down_significary_and/
[5] https://www.reddit.com/r/singularity/comments/1izn175/openai_gpt45_system_card/
[6] https://mashable.com/article/openai-gpt-4-5-release-how-try
[7] https://www.reddit.com/r/openai/comments/1iznny5/openai_gpt45_system_card/
[8] https://www.youtube.com/watch?v=0kbas3s5ryw

Πώς εκτελεί το GPT-4.5 σε σενάρια όπου τα μηνύματα χρήστη προσπαθούν να εξαπατήσουν το μοντέλο

Αξιολογήσεις ασφαλείας και jailbreaks

Κόκκινες αξιολογήσεις ομάδας

Συνολική απόδοση