GPT-4.5 SWE-Lancer etalono našumas: valdymo stipriosios pusės ir kodavimo iššūkiai

Kaip GPT-4.5 „SWE Manager“ užduotys palyginamos su IC SWE užduotimis

Naujausias „Openai“ didelės kalbos modelis „GPT-4.5“ demonstruoja skirtingą skirtingų programinės įrangos inžinerijos užduotis, ypač SWE-Lancer etalone. Šis etalonas įvertina AI modelius, susijusius su realaus pasaulio laisvai samdomo programinės įrangos inžinerijos užduotimis, padalintomis į individualias bendraautorių (IC) SWE užduotis ir SWE tvarkyklės užduotis.

** IC SWE užduotys apima tiesioginį kodavimą, derinimą ir įgyvendinimą, reikalaujant, kad AI modeliai modifikuotų kodą ir pateiktų sprendimus. Šios užduotys vertinamos naudojant bandymus nuo galo iki galo. „GPT-4.5“ pasiekė kuklų atlikimą atliekant IC SWE užduotis, sėkmingai išspręsdamas 20% šių užduočių. Tai rodo, kad nors GPT-4.5 gali padėti atlikti kodavimo užduotis, tačiau jis vis dar susiduria su iššūkiais visiškai automatizuojant sudėtingas kodavimo užduotis, panašiai kaip ir kiti modeliai, kurie parodė apie 26% tikslumą atliekant tiesioginio kodavimo užduotis [1] [2].

** „SWE Manager“ užduotys, kita vertus, reikalauja, kad AI modeliai veiktų kaip techniniai potencialūs klientai, pasirinkdami optimalius įgyvendinimo pasiūlymus ir priimant sprendimus. GPT-4.5 atliko šias užduotis geriau ir pasiekė 44%sėkmės procentą. Tai rodo, kad GPT-4.5 yra labiau įgudęs vadovaujančių vaidmenų, pavyzdžiui, įvertinti kodo kokybę ir priimti strateginius sprendimus, kurie atitinka bendrą AI modelių tendenciją, gerai atliekančią valdymo užduotis, dažnai pasiekiant apie 45% tikslumą [1] [2].

Apskritai, GPT-4.5 rodo pastebimą jo atlikimo skirtumą tarp IC SWE užduočių ir SWE vadovo užduočių, pabrėžiant jo stipriąsias pareigas vadovų vaidmenyje, tačiau tiesioginio kodavimo užduočių apribojimai. Šis skirtumas pabrėžia AI potencialą remiant programinės įrangos inžineriją, ypač priimant sprendimus ir strateginius vaidmenis, tuo pačiu vis dar reikalaujant žmonių priežiūros atliekant sudėtingas kodavimo užduotis.

Citatos:
[1] https://www.neowin.net/news/openai-announces gpt-45-its didžiausias ir daugiausia žinių
]
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/TIP/GPT-35-VS-GPT-4 Didžiausi-diferences-to-consider
[5] https://topostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-shing-3-5-sonnet beatting-1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-ts-lorgest-ai-model-yet/