GPT-4.5 Prestanda på SWE-Lancer Benchmark: Ledningsstyrkor och kodningsutmaningar

Hur jämför GPT-4.5: s prestanda på SWE-chefsuppgifter med IC SWE-uppgifter

GPT-4.5, Openais senaste stora språkmodell, visar varierande prestanda mellan olika programvarutekniska uppgifter, särskilt i SWE-Lancer-riktmärket. Denna riktmärke utvärderar AI-modeller på verkliga frilansprogramvaruuppgifter, uppdelade i enskilda bidragsgivare (IC) SWE-uppgifter och SWE-chefsuppgifter.

** IC SWE -uppgifter involverar direkt kodning, felsökning och implementering, vilket kräver AI -modeller för att ändra kod och skicka lösningar. Dessa uppgifter utvärderas med hjälp av slut-till-sluttest. GPT-4.5 uppnådde en blygsam prestanda på IC SWE-uppgifter och lyckades lösa 20% av dessa uppgifter. Detta indikerar att även om GPT-4,5 kan hjälpa till med kodningsuppgifter, står det fortfarande inför utmaningar när det gäller att automatisera komplexa kodningsjobb, liknande andra modeller som har visat cirka 26% noggrannhet på direkta kodningsuppgifter [1] [2].

** SWE Manager -uppgifter kräver å andra sidan AI -modeller för att fungera som tekniska leder, välja optimala genomförandeförslag och fatta beslut. GPT-4.5 presterade bättre på dessa uppgifter och uppnådde en framgångsgrad på 44%. Detta antyder att GPT-4,5 är mer skicklig på ledarroller, såsom utvärdering av kodkvalitet och fatta strategiska beslut, som överensstämmer med den allmänna trenden för AI-modeller som presterar bra på hanteringsuppgifter, vilket ofta uppnår cirka 45% noggrannhet [1] [2].

Sammantaget visar GPT-4,5 en märkbar skillnad i dess prestanda mellan IC SWE-uppgifter och SWE-chefsuppgifter, vilket belyser dess styrkor i ledarroller men begränsningar i direkta kodningsuppgifter. Denna distinktion understryker AI: s potential för att stödja mjukvaruteknik, särskilt i beslutsfattande och strategiska roller, samtidigt som man kräver mänsklig övervakning för komplexa kodningsuppgifter.

Citeringar:
]
[2] https://adasci.org/bencharkarking-ai-on-oftware-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
]
[5] https://topmostads.com/gpt-4-5-vs-gpt-5- release/
]
[7] https://openai.com/index/swe-lancer/
]