GPT-4.5 Wydajność w odniesieniu SWE-Lancer: Mocne strony i wyzwania kodowania

W jaki sposób wydajność GPT-4.5 na zadaniach SWE Manager w porównaniu z zadaniami IC SWE

GPT-4.5, najnowszy duży model języka Openai, pokazuje różną wydajność w różnych zadaniach inżynierii oprogramowania, szczególnie w odniesieniu SWE-Lancer. Ten punkt odniesienia ocenia modele AI na zadaniach inżynierii oprogramowania rzeczywistego, podzielone na zadania SWE indywidualne (IC) i zadania SWE Manager.

** Zadania IC SWE obejmują bezpośrednie kodowanie, debugowanie i wdrażanie, wymagające modeli AI do modyfikacji kodu i przesyłania rozwiązań. Zadania te są oceniane przy użyciu testów end-to-end. GPT-4.5 osiągnął niewielką wydajność zadań IC SWE, z powodzeniem rozwiązując 20% tych zadań. Wskazuje to, że chociaż GPT-4.5 może pomóc w zadaniach kodowania, nadal stoi przed wyzwaniami w pełni automatyzacji złożonych zadań kodowania, podobnie jak inne modele, które wykazały około 26% dokładności zadań bezpośredniego kodowania [1] [2].

** Z drugiej strony zadania Managera SWE wymagają, aby modele AI działały jako potencjalni klientów, wybierając optymalne propozycje wdrożenia i podejmowanie decyzji. GPT-4.5 działał lepiej w tych zadaniach, osiągając wskaźnik sukcesu wynoszący 44%. Sugeruje to, że GPT-4.5 jest bardziej biegły w rolach menedżerskich, takich jak ocena jakości kodu i podejmowanie strategicznych decyzji, które są zgodne z ogólnym trendem modeli AI działających dobrze w zadaniach zarządzania, często osiągając około 45% dokładności [1] [2].

Ogólnie rzecz biorąc, GPT-4.5 pokazuje zauważalną różnicę w swojej wydajności między zadaniami IC SWE a zadaniami SWE Manager, podkreślając jego mocne strony w role menedżerskie, ale ograniczenia w zadaniach bezpośredniego kodowania. To rozróżnienie podkreśla potencjał sztucznej inteligencji w wspieraniu inżynierii oprogramowania, szczególnie w zakresie podejmowania decyzji i strategicznych, a jednocześnie wymaga nadzoru ludzkiego w przypadku złożonych zadań kodowania.

Cytaty:
[1] https://www.neowin.net/news/openai-announces-gpt-45-its-tisgegest-and-most-knowledledledledledel-yet/
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-liggest-differences-to-consider
[5] https://topistadads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-el-koding-benchmark-swe-lancer-showing-3-5-sonnet-wie-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-ielbest-ai-model-yet/