Η ακρίβεια GPT-4.5 στην αντιμετώπιση προβλημάτων και συγκρίσεων απόδοσης

Πώς η ακρίβεια του GPT-4.5 σχετικά με τις ερωτήσεις αντιμετώπισης προβλημάτων συγκρίνεται με εκείνη των GPT-4O και O1

Η ακρίβεια του GPT-4.5 σχετικά με τις ερωτήσεις αντιμετώπισης προβλημάτων, ιδιαίτερα σε πολύπλοκες περιοχές όπως η πολυτροπική αντιμετώπιση προβλημάτων και ιολογίας, δεν είναι ρητά λεπτομερώς στις διαθέσιμες πληροφορίες. Ωστόσο, η GPT-4,5 έχει δείξει βελτιώσεις σε ορισμένες περιοχές σε σύγκριση με τους προκατόχους της. Για παράδειγμα, εκτελεί καλύτερα την αναγνώριση των μοτίβων και των συνδέσεων σχεδίασης, οι οποίες θα μπορούσαν ενδεχομένως να ενισχύσουν τις δυνατότητες αντιμετώπισης προβλημάτων [5].

Όσον αφορά τις συγκεκριμένες αξιολογήσεις, η GPT-4,5 γενικά εκτελεί ισοδύναμη με τα GPT-4O και O1 στην άρνηση μη ασφαλούς περιεχομένου και σε ορισμένες αξιολογήσεις που σχετίζονται με την ασφάλεια [1] [4]. Ωστόσο, όταν πρόκειται για ακρίβεια στην απάντηση σε ερωτήσεις, η GPT-4.5 έχει δείξει σημαντικές βελτιώσεις σε ορισμένα σύνολα δεδομένων. Για παράδειγμα, στο σύνολο δεδομένων PersonQA, το οποίο αξιολογεί τις ψευδαισθήσεις και την ακρίβεια, η GPT-4,5 επιτυγχάνει ακρίβεια 0,78 και ποσοστό ψευδαίσθησης 0,19, που ξεπερνά τα GPT-4O και O1 [1] [4].

Σε αξιολογήσεις δικαιοσύνης και μεροληψίας, η GPT-4.5 εκτελεί παρόμοια με το GPT-4O, αλλά υπερβαίνει την O1 στην παροχή αμερόληπτων απαντήσεων σε σαφείς ερωτήσεις [1] [4]. Ενώ η GPT-4.5 έχει επιδείξει βελτιώσεις στο χειρισμό αντικρουόμενων μηνυμάτων και τη συμμόρφωση με τις οδηγίες ασφαλείας, η συνολική ακρίβειά του στην αντιμετώπιση των ερωτήσεων δεν συγκρίνεται ειδικά με τα GPT-4O και O1 στα διαθέσιμα δεδομένα [1] [4].

Γενικά, η ικανότητα του GPT-4.5 να αναγνωρίζει τα πρότυπα και να σχεδιάσει συνδέσεις μπορεί να ενισχύσει τις επιδόσεις του σε καθήκοντα αντιμετώπισης προβλημάτων, αλλά συγκεκριμένες συγκρίσεις σε αυτόν τον τομέα είναι περιορισμένες. Οι παρατηρητές της βιομηχανίας έχουν σημειώσει βελτιώσεις σε ορισμένα καθήκοντα, όπως η εξαγωγή δεδομένων, όπου η GPT-4,5 ξεπερνά την GPT-4O με την εξαγωγή πεδίων με μεγαλύτερη ακρίβεια [7]. Ωστόσο, οι λεπτομερείς συγκρίσεις ειδικά για τις ερωτήσεις αντιμετώπισης προβλημάτων δεν παρέχονται στις διαθέσιμες πληροφορίες.

Αναφορές:
[1] https://cdn.openai.com/gpt-4-5-system-card.pdf
[2] https://www.reddit.com/r/chatgptpro/comments/1ggnm90/gpt4o_and_others_provide_more_incorrect_than/
[3] https://www.reddit.com/r/openai/comments/1izp6tt/gpt_45_releaster_heres_benchmarks/
[4] https://assets.ctfassets.net/kftzwdyauwt9/7eadv6oawhhxlaehuyu7db/64e9f7916d3581ba4b5d0f0a6c5098d1/gpt-4-5_system_card_2272025.pdf
[5] https://www.theverge.com/news/620021/openai-gpt-4-5-orion-ai-model-release
[6] https://neoeteric.eu/blog/gpt-4o-vs-gpt-4-vs-gpt-3-5-comparison-in-realworld-scenarios/
[7] https://venturebeat.com/ai/industry-observers-say-gpt-4-5-is-an-odd-model-question-its-price/
[8] https://community.openai.com/t/gpt-4-vs-gpt-4o-which-is-the-better/746991