GPT-4.5. Veiktspēja SWE-Lancer etalonam: vadības stiprās puses un kodēšanas izaicinājumi

Kā GPT-4.5 sniegums SWE menedžera uzdevumos salīdzina ar IC SWE uzdevumiem

GPT-4.5, Openai jaunākais lielās valodas modelis, parāda atšķirīgu veiktspēju dažādos programmatūras inženierijas uzdevumos, īpaši SWE-Lancer etalonā. Šis etalons novērtē AI modeļus reālās pasaules ārštata programmatūras inženierijas uzdevumos, kas sadalīti individuālajos ieguldītāju (IC) SWE uzdevumos un SWE pārvaldnieka uzdevumos.

** IC SWE uzdevumi ir saistīti ar tiešu kodēšanu, atkļūdošanu un ieviešanu, pieprasot AI modeļiem, lai modificētu kodu un iesniegtu risinājumus. Šie uzdevumi tiek novērtēti, izmantojot visaptverošus testus. GPT-4.5 sasniedza nelielu sniegumu IC SWE uzdevumos, veiksmīgi risinot 20% no šiem uzdevumiem. Tas norāda, ka, lai arī GPT-4.5 var palīdzēt kodēt uzdevumus, tas joprojām saskaras ar izaicinājumiem, pilnībā automatizējot sarežģītus kodēšanas darbus, līdzīgi kā citi modeļi, kas ir parādījuši aptuveni 26% precizitāti tiešo kodēšanas uzdevumos [1] [2].

** SWE pārvaldnieka uzdevumi, no otras puses, prasa AI modeļiem darboties kā tehniski vadi, izvēloties optimālus ieviešanas priekšlikumus un pieņemt lēmumus. GPT-4.5 labāk veica šos uzdevumus, panākot panākumu līmeni 44%. Tas liek domāt, ka GPT-4.5 ir prasmīgāks vadības lomās, piemēram, koda kvalitātes novērtēšana un stratēģisku lēmumu pieņemšana, kas atbilst vispārējai AI modeļu tendencei, kas labi darbojas vadības uzdevumos, bieži vien sasniedzot aptuveni 45% precizitāti [1] [2].

Kopumā GPT-4.5 parāda ievērojamas atšķirības tā sniegumā starp IC SWE uzdevumiem un SWE pārvaldnieka uzdevumiem, izceļot tās stiprās puses vadības lomās, bet tiešo kodēšanas uzdevumu ierobežojumus. Šī atšķirība uzsver AI potenciālu atbalstīt programmatūras inženieriju, jo īpaši lēmumu pieņemšanā un stratēģiskās lomās, vienlaikus pieprasot cilvēku uzraudzību sarežģītiem kodēšanas uzdevumiem.

Atsauces:
[1] https://www.neowin.net/news/openai-announces-gpt-45-its-lart-and-most-knowledgable-model-wet/
[2] https://adasci.org/benchmarking-ai-on-software-tosks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
.
[5] https://topmostads.com/gpt-4-5-VS-Gpt-5-Release/
[6.]
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-lartig-ai-model-yet/