GPT-4.5 Ιεραρχία οδηγιών: Προτεραιότητα στα μηνύματα του συστήματος για ασφάλεια και ασφάλεια

Πώς δίνει προτεραιότητα στα μηνύματα του συστήματος GPT-4.5

Το GPT-4.5 δίνει προτεραιότητα στα μηνύματα του συστήματος μέσω μηνυμάτων χρήστη μέσω μιας ιεραρχίας οδηγιών, η οποία έχει σχεδιαστεί για να μετριάσει τον κίνδυνο άμεσων ενέσεων και άλλων επιθέσεων που θα μπορούσαν να αντικαταστήσουν τις οδηγίες ασφαλείας του μοντέλου. Αυτή η ιεραρχία ταξινομεί τα μηνύματα σε δύο κύριους τύπους: μηνύματα συστήματος και μηνύματα χρήστη. Τα μηνύματα του συστήματος είναι ουσιαστικά κρυμμένες οδηγίες που καθοδηγούν τη συμπεριφορά του AI, ενώ τα μηνύματα χρήστη είναι οι εισόδους που παρέχονται από τους χρήστες.

Στο GPT-4.5, όταν η σύγκρουση μηνυμάτων συστήματος και χρηστών, το μοντέλο εκπαιδεύεται να ακολουθήσει τις οδηγίες στο μήνυμα του συστήματος πάνω από αυτά του μηνύματος χρήστη. Αυτό επιτυγχάνεται με την εποπτεία του μοντέλου σε παραδείγματα όπου αυτοί οι τύποι μηνυμάτων βρίσκονται σε σύγκρουση. Το μοντέλο μαθαίνει να δίνει προτεραιότητα στα μηνύματα του συστήματος για να εξασφαλίσει την τήρηση των κατευθυντήριων γραμμών για την ασφάλεια και να αποτρέψει τις ανεπιθύμητες εξόδους.

Για παράδειγμα, εάν ένας χρήστης επιχειρεί να εξαπατήσει το μοντέλο για την παροχή επιβλαβών πληροφοριών, το μήνυμα συστήματος μπορεί να δώσει εντολή στο μοντέλο να αρνηθεί τέτοια αιτήματα. Η ικανότητα της GPT-4.5 να τηρεί αυτή την ιεραρχία βοηθά στη διατήρηση των προτύπων ασφαλείας και στην αποτροπή του χειρισμού του μοντέλου στη δημιουργία περιεχομένου που δεν έχει απαγορευτεί.

Αυτή η προσέγγιση είναι ζωτικής σημασίας για τη διασφάλιση ότι η GPT-4.5 συμπεριφέρεται με συνέπεια με τις επιδιωκόμενες κατευθυντήριες γραμμές για την ασφάλεια και την ηθική, ακόμη και όταν αντιμετωπίζει προσπάθειες να παρακάμψει αυτούς τους κανόνες μέσω των έξυπνων εισροών χρηστών. Με την προτεραιότητα των μηνυμάτων του συστήματος, το OpenAI στοχεύει στην ενίσχυση της αξιοπιστίας και της ασφάλειας του μοντέλου σε διάφορες εφαρμογές [1] [2].

Αναφορές:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.prompthub.us/blog/everything-system-messages-how-to-use-them-real-world-experiments-prompthines-tections-protectors
[3] https://platform.openai.com/docs/guides/prompt-engineering
[4] https://community.openai.com/t/whys-gpt-4o-insanely-limited-to-free-users-and-even-plus-users-it-literally-barely-gives-you-5-messages-in-5-6-hours-to-the-free-769852
[5] https://9meters.com/technology/ai/gpt-4-5-begins-rolling-out-to-plus-and-team-users-next-week-to-enterprise-and-edu-users-the-collow-week
[6] https://arxiv.org/html/2408.10943v1
[7] https://www.pymnts.com/artificial-intelligence-2/2025/openai-to-release-gpt-4-5-within-weeks-gpt-5-within-months/
[8] https://www.reddit.com/r/chatgptpro/comments/13n55w7/highly_effection_prompt_for_summarizing_gpt4/