GPT-4.5 Prestaties op SWE-Lancer-benchmark: managementsterkten en coderingsuitdagingen

Hoe verhouden de prestaties van GPT-4.5 op SWE-managertaken zich tot IC SWE-taken

GPT-4.5, het nieuwste grote taalmodel van Openai, demonstreert verschillende prestaties in verschillende software-engineeringtaken, met name in de SWE-Lancer-benchmark. Deze benchmark evalueert AI-modellen op real-world freelance software-engineeringtaken, verdeeld in individuele bijdrage (IC) SWE-taken en SWE-managertaken.

** IC SWE -taken omvatten directe codering, foutopsporing en implementatie, waarbij AI -modellen moeten worden gewijzigd code te wijzigen en oplossingen in te dienen. Deze taken worden geëvalueerd met behulp van end-to-end tests. GPT-4.5 behaalde een bescheiden prestatie op IC SWE-taken, waarbij hij met succes 20% van deze taken oplossen. Dit geeft aan dat hoewel GPT-4.5 kan helpen bij het coderen van taken, het nog steeds voor uitdagingen staat bij het volledig automatiseren van complexe coderingsbanen, vergelijkbaar met andere modellen die ongeveer 26% nauwkeurigheid hebben aangetoond bij directe coderingstaken [1] [2].

** SWE -managertaken vereisen daarentegen AI -modellen om op te treden als technische leads, optimale implementatievoorstellen te selecteren en beslissingen te nemen. GPT-4.5 presteerde beter op deze taken en bereikte een slagingspercentage van 44%. Dit suggereert dat GPT-4.5 meer bedreven is in managementrollen, zoals het evalueren van codekwaliteit en het nemen van strategische beslissingen, die aansluiten bij de algemene trend van AI-modellen die goed presteren op managementtaken, die vaak ongeveer 45% nauwkeurigheid bereiken [1] [2].

Over het algemeen toont GPT-4.5 een merkbare ongelijkheid in zijn prestaties tussen IC SWE-taken en SWE-manager-taken, wat de sterke punten benadrukt in managementrollen, maar beperkingen in directe coderingstaken. Dit onderscheid onderstreept het potentieel van AI bij het ondersteunen van software-engineering, met name in besluitvorming en strategische rollen, terwijl ze nog steeds menselijk toezicht nodig hebben voor complexe coderingstaken.

Citaten:
[1] https://www.neowin.net/news/openai-Announces-gpt-45-it- Largest-Most- Knowledgable-Model-y
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differenties-to-consider
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-roases-new-codering-benchmark-swe-lancer-showing-3-5-sonnet-beiting-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-y