GPT-4.5 Απόδοση στο Swe-Lancer Benchmark: Διευθυντικά δυνατά σημεία και προκλήσεις κωδικοποίησης

Πώς συγκρίνεται η απόδοση του GPT-4.5 σε εργασίες SWE SWE Manager με τις εργασίες SWE SWE

Το GPT-4.5, το τελευταίο μεγάλο μοντέλο γλωσσών της OpenAI, επιδεικνύει διαφορετικές επιδόσεις σε διαφορετικές εργασίες μηχανικής λογισμικού, ιδιαίτερα στο σημείο αναφοράς του Swe-Lancer. Αυτό το σημείο αναφοράς αξιολογεί τα μοντέλα AI σε εργασίες λογισμικού ανεξάρτητου λογισμικού πραγματικού κόσμου, χωρισμένα σε εργασίες SWE (IC) SWE (IC) SWE και SWE Manager.

** Οι εργασίες SWE SWE περιλαμβάνουν άμεση κωδικοποίηση, εντοπισμό σφαλμάτων και εφαρμογής, απαιτώντας μοντέλα AI για την τροποποίηση του κώδικα και την υποβολή λύσεων. Αυτές οι εργασίες αξιολογούνται χρησιμοποιώντας δοκιμές από άκρο σε άκρο. Η GPT-4,5 πέτυχε μια μέτρια απόδοση σε εργασίες IC SWE, επίλυση επιτυχώς το 20% αυτών των καθηκόντων. Αυτό δείχνει ότι ενώ το GPT-4.5 μπορεί να βοηθήσει με τις εργασίες κωδικοποίησης, εξακολουθεί να αντιμετωπίζει προκλήσεις στην πλήρη αυτοματοποίηση πολύπλοκων εργασιών κωδικοποίησης, παρόμοια με άλλα μοντέλα που έχουν δείξει περίπου 26% ακρίβεια σε εργασίες άμεσης κωδικοποίησης [1] [2].

** Οι εργασίες του SWE SWE, από την άλλη πλευρά, απαιτούν από τα μοντέλα AI να λειτουργούν ως τεχνικοί οδηγοί, επιλέγοντας βέλτιστες προτάσεις εφαρμογής και λήψη αποφάσεων. Η GPT-4,5 εκτελείται καλύτερα σε αυτά τα καθήκοντα, επιτυγχάνοντας ποσοστό επιτυχίας 44%. Αυτό υποδηλώνει ότι η GPT-4.5 είναι πιο έμπειρη στους διαχειριστικούς ρόλους, όπως η αξιολόγηση της ποιότητας του κώδικα και η λήψη στρατηγικών αποφάσεων, οι οποίες ευθυγραμμίζονται με τη γενική τάση των μοντέλων AI που αποδίδουν καλά σε καθήκοντα διαχείρισης, συχνά επιτυγχάνοντας περίπου 45% ακρίβεια [1] [2].

Συνολικά, η GPT-4,5 δείχνει μια αξιοσημείωτη ανισότητα στις επιδόσεις της μεταξύ των εργασιών IC SWE και των εργασιών του SWE SWE, υπογραμμίζοντας τα δυνατά σημεία του σε διαχειριστικούς ρόλους, αλλά περιορισμούς σε καθήκοντα άμεσης κωδικοποίησης. Αυτή η διάκριση υπογραμμίζει το δυναμικό του AI στην υποστήριξη της μηχανικής λογισμικού, ιδιαίτερα στη λήψη αποφάσεων και τους στρατηγικούς ρόλους, ενώ εξακολουθεί να απαιτεί ανθρώπινη εποπτεία για σύνθετα καθήκοντα κωδικοποίησης.

Αναφορές:
[1] https://www.neowin.net/news/openai-announces-gpt-45-its-largest-and-most-knowledgeable-model-yet/
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://topmotads.com/gpt-4-5-vs-gpt-5-5esh
[6] https://community.openai.com/t/openai-releases-new-coding-bench-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/