GPT-4.5 Ytelse på Swe-Lancer Benchmark: Ledelsesstyrker og kodingsutfordringer

Hvordan sammenligner GPT-4.5s ytelse på SWE Manager-oppgaver med IC SWE-oppgaver

GPT-4.5, Openais siste store språkmodell, demonstrerer varierende ytelse på forskjellige programvaretekniske oppgaver, spesielt i Swe-Lancer-benchmark. Denne målestokken evaluerer AI-modeller på virkelighetsutviklingsoppgaver i verden, delt inn i individuelle bidragsyter (IC) SWE-oppgaver og SWE Manager-oppgaver.

** IC SWE -oppgaver involverer direkte koding, feilsøking og implementering, og krever at AI -modeller endrer kode og sender inn løsninger. Disse oppgavene blir evaluert ved bruk av ende-til-ende-tester. GPT-4.5 oppnådde en beskjeden ytelse på IC SWE-oppgaver, og med hell løst 20% av disse oppgavene. Dette indikerer at selv om GPT-4.5 kan hjelpe til med kodingsoppgaver, står det fortsatt overfor utfordringer med å fullstendig automatisere komplekse kodingsjobber, som ligner på andre modeller som har vist rundt 26% nøyaktighet på direkte kodingsoppgaver [1] [2].

** SWE Manager -oppgaver, derimot, krever at AI -modeller skal fungere som tekniske potensielle kunder, velge optimale implementeringsforslag og ta beslutninger. GPT-4.5 presterte bedre på disse oppgavene, og oppnådde en suksessrate på 44%. Dette antyder at GPT-4.5 er mer flink til lederroller, for eksempel å evaluere kodekvalitet og ta strategiske beslutninger, som stemmer overens med den generelle trenden med AI-modeller som presterer godt på styringsoppgaver, og oppnår ofte rundt 45% nøyaktighet [1] [2].

Totalt sett viser GPT-4.5 en merkbar forskjell i ytelsen mellom IC SWE-oppgaver og SWE Manager-oppgaver, og fremhever styrkene i ledelsesroller, men begrensninger i direkte kodingsoppgaver. Dette skillet understreker potensialet til AI i å støtte programvareteknikk, spesielt i beslutningstaking og strategiske roller, mens den fremdeles krever menneskelig tilsyn for komplekse kodingsoppgaver.

Sitasjoner:
[1] https://www.neowin.net/news/opena- announces-gpt-45-its-stamp- og-most-kunnskapsmodelljeket/
[2] https://adasci.org/benchmarking-ai-on-software-ples-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-fest-differences-to-concred
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-showing-3-5-onnet-bating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-gest-ai-model-jet/