Performanță GPT-4.5 pe referința SWE-Lancer: Puncte forte manageriale și provocări de codare

Cum se compară performanțele GPT-4.5 în sarcinile SWE Manager cu sarcinile IC SWE

GPT-4.5, cel mai recent model de limbaj mare al lui OpenAI, demonstrează performanțe variate în diferite sarcini de inginerie software, în special în referința Swe-Lancer. Acest benchmark evaluează modelele AI pe sarcini de inginerie software independentă din lumea reală, împărțite în sarcini SWE Contribuabil individual (IC) și sarcini SWE Manager.

** Sarcinile IC SWE implică codificare directă, depanare și implementare, necesitând modele AI pentru a modifica codul și a depune soluții. Aceste sarcini sunt evaluate folosind teste end-to-end. GPT-4.5 a obținut o performanță modestă la sarcinile IC SWE, rezolvând cu succes 20% din aceste sarcini. Acest lucru indică faptul că, în timp ce GPT-4.5 poate ajuta la sarcini de codificare, se confruntă în continuare cu provocări în automatizarea completă a lucrărilor de codificare complexe, similar cu alte modele care au arătat o precizie de aproximativ 26% la sarcinile de codificare directă [1] [2].

** Sarcinile SWE Manager, pe de altă parte, necesită modele AI pentru a acționa ca oportunități tehnice, selectând propuneri de implementare optime și luând decizii. GPT-4.5 a avut un efect mai bun în aceste sarcini, obținând o rată de succes de 44%. Acest lucru sugerează că GPT-4.5 este mai adept față de rolurile manageriale, cum ar fi evaluarea calității codului și luarea deciziilor strategice, care se aliniază cu tendința generală a modelelor AI care se desfășoară bine la sarcinile de management, obținând adesea o precizie de aproximativ 45% [1] [2].

În general, GPT-4.5 arată o disparitate vizibilă în performanța sa între sarcinile IC SWE și sarcinile SWE Manager, subliniind punctele sale forte în rolurile manageriale, dar limitările sarcinilor de codificare directă. Această distincție subliniază potențialul AI în sprijinirea ingineriei software, în special în procesul decizional și în rolurile strategice, necesitând în același timp supravegherea umană pentru sarcini de codificare complexe.

Citări:
]
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-penai-swe-lancer/
[3] https://openai.com/index/introducting-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-difference-to-consider
[5] https://topostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-relăse-new-coding-benchmark-swe-lancer-showing-3-5--sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-ts-largest-AI-MODEL-THEET/