Učinkovitost GPT-4.5 na SWE-Lancer Benchmark: vodstvene prednosti in izzivi kodiranja

Kako je uspešnost GPT-4.5 na nalogah SWE Manager v primerjavi z nalogami IC SWE

GPT-4.5, najnovejši veliki jezikovni model OpenAI, prikazuje različne zmogljivosti med različnimi nalogami programskega inženiringa, zlasti v merilniku SWE-Lancer. To referenco ocenjuje modele AI o nalogi samostojnega inženirstva programske opreme v resničnem svetu, razdeljenih na naloge SWE individualne prispevke (IC) in naloge upravljavca SWE.

** IC SWE naloge vključujejo neposredno kodiranje, odpravljanje napak in izvajanje, ki zahtevajo modele AI za spreminjanje kode in predložitev rešitev. Te naloge se ocenijo z uporabo preskusov od konca do konca. GPT-4.5 je dosegel skromne zmogljivosti pri nalogah IC SWE in uspešno rešil 20% teh nalog. To kaže, da čeprav lahko GPT-4.5 pomaga pri kodirajočih nalogah, se še vedno sooča z izzivi pri popolnoma avtomatizaciji kompleksnih kodirnih opravil, podobnih drugim modelom, ki so pokazali približno 26% natančnosti pri neposrednem kodiranju [1] [2].

** Naloge upravljavca SWE na drugi strani zahtevajo, da AI modeli delujejo kot tehnični vodi, izbirajo optimalne predloge za izvajanje in sprejemajo odločitve. GPT-4.5 je pri teh nalogah opravljal bolje in dosegel 44-odstotno uspešnost. To kaže, da je GPT-4.5 bolj spreten pri vodstvenih vlogah, kot sta ocenjevanje kakovosti kode in sprejemanje strateških odločitev, ki se ujemajo s splošnim trendom modelov AI, ki dobro delujejo pri nalogi upravljanja, in pogosto dosežejo približno 45% natančnosti [1] [2].

Na splošno GPT-4.5 kaže opazno neskladje pri njegovi uspešnosti med nalogami IC SWE in nalogami SWE Manager, kar poudarja njegove prednosti v vodstvenih vlogah, vendar omejitve pri neposrednem kodiranju. To razlikovanje poudarja potencial AI pri podpori programskemu inženiringu, zlasti pri odločanju in strateških vlogah, hkrati pa še vedno zahteva nadzor človeka za zapletene naloge kodiranja.

Navedbe:
[1] https://www.neowin.net/news/openai-announces-gpt-45-its-largest-and-most-knowledgeable-yet/
[2] https://adasci.org/Benchmarking-ai-on-ssoftware-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-New-coding-coding-we-swe-lancer-showing-3-5-sonet-beating-O1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/