GPT-4.5 Performance på SWE-Lancer Benchmark: Ledelsesstyrker og kodningsudfordringer

Hvordan sammenligner GPT-4.5s præstation på SWE Manager-opgaver med IC SWE-opgaver

GPT-4.5, Openai's seneste store sprogmodel, demonstrerer forskellige ydelser på tværs af forskellige softwareingeniøropgaver, især i SWE-Lancer Benchmark. Denne benchmark evaluerer AI-modeller på den virkelige verdens freelance-software-ingeniøropgaver, opdelt i individuelle bidragyder (IC) SWE-opgaver og SWE-manageropgaver.

** IC SWE -opgaver involverer direkte kodning, fejlsøgning og implementering, der kræver AI -modeller for at ændre kode og indsende løsninger. Disse opgaver evalueres ved hjælp af ende-til-ende-test. GPT-4.5 opnåede en beskeden præstation på IC SWE-opgaver, idet de med succes løser 20% af disse opgaver. Dette indikerer, at selvom GPT-4.5 kan hjælpe med kodningsopgaver, står det stadig over for udfordringer i fuldautomatering af komplekse kodningsjob, svarende til andre modeller, der har vist omkring 26% nøjagtighed på direkte kodningsopgaver [1] [2].

** SWE Manager -opgaver kræver på den anden side AI -modeller for at fungere som tekniske kundeemner, vælge optimale implementeringsforslag og tage beslutninger. GPT-4.5 presterede bedre på disse opgaver og opnåede en succesrate på 44%. Dette antyder, at GPT-4.5 er mere dygtig til ledelsesroller, såsom at evaluere kodekvalitet og tage strategiske beslutninger, som er i overensstemmelse med den generelle tendens for AI-modeller, der fungerer godt på styringsopgaver, og ofte opnår omkring 45% nøjagtighed [1] [2].

Generelt viser GPT-4.5 en mærkbar forskel i sin præstation mellem IC SWE-opgaver og SWE-manageropgaver, der fremhæver dens styrker i ledelsesroller, men begrænsninger i direkte kodningsopgaver. Denne sondring understreger AI's potentiale til at støtte softwareteknik, især i beslutningstagning og strategiske roller, mens den stadig kræver menneskelig tilsyn for komplekse kodningsopgaver.

Citater:
[Jeg
)
[3] https://openai.com/index/introducing-trpt-4-5/
)
)
)
[7] https://openai.com/index/swe-lancer/
)