Performance GPT-4.5 sul benchmark SWE-Lancer: punti di forza manageriali e sfide di codifica

In che modo le prestazioni di GPT-4.5 sulle attività del gestore SWE sono paragonate alle attività SWE IC

GPT-4.5, l'ultimo modello di linguaggio di grandi dimensioni di Openi, dimostra prestazioni variabili attraverso diverse attività di ingegneria del software, in particolare nel benchmark SWE-Lancer. Questo punto di riferimento valuta i modelli di intelligenza artificiale su attività di ingegneria del software freelance nel mondo reale, divisi in attività SWE di collaboratore individuale (IC) e attività SWE Manager.

** I compiti SWE IC comportano la codifica diretta, il debug e l'implementazione, che richiedono modelli AI per modificare il codice e inviare soluzioni. Queste attività vengono valutate utilizzando test end-to-end. GPT-4.5 ha ottenuto una prestazione modesta sui compiti SWE IC, risolvendo con successo il 20% di questi compiti. Ciò indica che mentre GPT-4.5 può aiutare a codificare compiti, affronta ancora sfide nell'automazione di lavori di codifica complessi, simili ad altri modelli che hanno mostrato circa il 26% di precisione su attività di codifica diretta [1] [2].

** Le attività del gestore SWE, d'altra parte, richiedono ai modelli di intelligenza artificiale di fungere da lead tecnici, selezionando proposte di implementazione ottimali e prendendo decisioni. GPT-4.5 ha ottenuto risultati migliori su questi compiti, raggiungendo un tasso di successo del 44%. Ciò suggerisce che GPT-4.5 è più abile nei ruoli manageriali, come la valutazione della qualità del codice e prendere decisioni strategiche, che si allineano alla tendenza generale dei modelli AI che svolgono bene compiti di gestione, ottenendo spesso circa il 45% di precisione [1] [2].

Nel complesso, GPT-4.5 mostra una notevole disparità nelle sue prestazioni tra compiti SWE IC e attività SWE Manager, evidenziando i suoi punti di forza nei ruoli manageriali ma limitazioni nelle attività di codifica diretta. Questa distinzione sottolinea il potenziale dell'intelligenza artificiale nel supportare l'ingegneria del software, in particolare nel processo decisionale e nei ruoli strategici, pur richiedendo una supervisione umana per compiti di codifica complessi.

Citazioni:
[1] https://www.neowin.net/news/openai-announces-gpt-45-its-lagest-and-most-lowledgeable-model-yet/
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-lagest-ai-model-yet/