GPT-4.5: Βελτιωμένη ακρίβεια με μειωμένα ποσοστά ψευδαίσθησης

Το GPT-4,5, το τελευταίο μοντέλο από το OpenAI, αποδεικνύει σημαντική μείωση των ποσοστών ψευδαισθήσεων σε σύγκριση με τους προκατόχους του. Παρόλο που γενικά δείχνει ποσοστό ψευδαίσθησης περίπου 37%, υπάρχουν συγκεκριμένοι τομείς και αξιολογήσεις όπου η απόδοσή του είναι ιδιαίτερα καλύτερη.

Τεχνικές μείωσης ψευδαίσθησης

Η GPT-4.5 χρησιμοποιεί νέες τεχνικές εποπτείας, συμπεριλαμβανομένης της εποπτευόμενης τελειοποίησης (SFT) και της ενίσχυσης της μάθησης από την ανθρώπινη ανατροφοδότηση (RLHF), η οποία συμβάλλει στο χαμηλότερο ποσοστό ψευδαίσθησης [1] [3]. Αυτές οι μέθοδοι συμβάλλουν στη βελτίωση της ακρίβειας και της αξιοπιστίας του μοντέλου εξασφαλίζοντας ότι δημιουργεί πληροφορίες βασισμένες στα πραγματικά δεδομένα.

απόδοση σε συγκεκριμένους τομείς

- Αξιολόγηση PersonQA: Στο σύνολο δεδομένων PersonQA, το οποίο δοκιμάζει την ικανότητα ενός μοντέλου να απαντά σε ερωτήσεις σχετικά με τους ανθρώπους με ακρίβεια, το GPT-4,5 δείχνει ποσοστό ψευδαίσθησης περίπου 19%. Αυτό είναι χαμηλότερο από το συνολικό του ρυθμό και δείχνει ότι σε τομείς που περιλαμβάνουν πραγματικές πληροφορίες σχετικά με τα άτομα, το GPT-4,5 εκτελεί καλά με λιγότερες ψευδαισθήσεις [3].

-Τα καθήκοντα που σχετίζονται με τη γλώσσα: το GPT-4.5 υπερέχει σε εργασίες γραφής και προγραμματισμού, προσφέροντας λεπτομερείς εξηγήσεις και βοήθεια στην πρακτική επίλυση προβλημάτων. Ενώ τα συγκεκριμένα ποσοστά ψευδαισθήσεων για αυτά τα καθήκοντα δεν είναι λεπτομερή, η βελτιωμένη αναγνώριση προτύπων του μοντέλου και η ευρύτερη βάση γνώσεων συμβάλλουν σε ακριβέστερες και αξιόπιστες εξόδους [1] [5].

- Σύγκριση με άλλα μοντέλα: Σε ορισμένες αξιολογήσεις, όπως το μοντέλο συλλογισμού O1, το ποσοστό ψευδαίσθησης του GPT-4.5 είναι υψηλότερο (37% έναντι 44% για το O1). Ωστόσο, το GPT-4.5 έχει σχεδιαστεί για εφαρμογές γενικότερης χρήσης και όχι για εξειδικευμένες εργασίες συλλογιστικής [5].

Συνολικά, το ποσοστό ψευδαίσθησης του GPT-4,5 είναι ιδιαίτερα χαμηλό σε τομείς όπου έχει εκπαιδευτεί και αξιολογείται εκτενώς, όπως στο σύνολο δεδομένων PersonQA. Ωστόσο, η απόδοσή του μπορεί να ποικίλει σε διαφορετικά καθήκοντα και αξιολογήσεις, αντανακλώντας τις συνεχιζόμενες προκλήσεις στη μείωση των ψευδαισθήσεων σε μοντέλα AI.

Αναφορές:
[1] https://topmotads.com/openai-release-gpt-4-5/
[2] https://www.reddit.com/r/chatgpt/comments/18kqaom/gpt45turbo_hallucination_explained_with_tests_and/
[3] https://cdn.openai.com/gpt-4-5-system-card.pdf
[4] https://community.openai.com/t/custom-gpt-used-to-work-now-hallucinates-and-does-not-use-specific-data-from-s-as-sincomed/809849
[5] https://www.channelnewsasia.com/business/openai-rolls-out-gpt-45-some-paying-users-expand-access-next-week-4966131
[6] https://www.youtube.com/watch?v=ktwk3hbajdy
[7] https://garymarcus.substack.com/p/gpt-45-is-no-gpt-5
[8] https://www.toolify.ai/gpts/exciting-new-updates-open-source-stable-diffusion-200k-context-claude-21-139386

Υπάρχουν περιοχές όπου το ποσοστό ψευδαίσθησης του GPT-4.5 είναι ιδιαίτερα χαμηλό

Τεχνικές μείωσης ψευδαίσθησης

απόδοση σε συγκεκριμένους τομείς