GPT-4.5 teljesítmény a SWE-Lancer Benchmark-on: vezetői erősségek és kódolási kihívások

Hogyan hasonlít a GPT-4.5 teljesítménye az SWE Manager feladatokon az IC SWE feladatokhoz

A GPT-4.5, az OpenAI legújabb nagy nyelvi modellje, különféle teljesítményt mutat a különböző szoftverfejlesztési feladatokban, különösen a SWE-Lancer referenciaértékben. Ez a referenciaérték az AI modelleket értékeli a valós szabadúszó szoftverfejlesztési feladatokon, amelyek különálló közreműködő (IC) SWE feladatokra és SWE Manager feladatokra osztódnak.

** Az IC SWE feladatok közvetlen kódolást, hibakeresést és megvalósítást tartalmaznak, és az AI modellek megkövetelik a kód módosítását és a megoldások benyújtását. Ezeket a feladatokat a végpontok közötti tesztekkel értékelik. A GPT-4,5 szerény teljesítményt ért el az IC SWE feladatokon, sikeresen megoldva ezen feladatok 20% -át. Ez azt jelzi, hogy míg a GPT-4.5 segíthet a kódolási feladatokban, továbbra is kihívásokkal kell szembenéznie a komplex kódolási feladatok teljes automatizálásában, hasonlóan más modellekhez, amelyek körülbelül 26% -os pontosságot mutattak a közvetlen kódolási feladatoknál [1] [2].

** A SWE Manager feladatok viszont megkövetelik az AI modelleket, hogy műszaki vezetőkként működjenek, optimális végrehajtási javaslatokat választanak és döntéseket hoznak. A GPT-4,5 jobban teljesített ezekkel a feladatokkal, 44%-os sikerességi ráta elérésével. Ez azt sugallja, hogy a GPT-4.5 jobban megfelel a vezetői szerepekben, például a kódminőség értékelése és a stratégiai döntések meghozatala, amely összhangban áll az AI modellek általános tendenciájával, amely jól teljesíti a menedzsment feladatait, gyakran körülbelül 45% -os pontosságot elérve [1] [2].

Összességében a GPT-4.5 észrevehető különbségeket mutat az IC SWE feladatok és a SWE Manager feladatok közötti teljesítményében, kiemelve annak erősségeit a vezetői szerepekben, de a közvetlen kódolási feladatok korlátozásait. Ez a megkülönböztetés hangsúlyozza az AI potenciálját a szoftverfejlesztés támogatásában, különös tekintettel a döntéshozatalra és a stratégiai szerepekre, miközben továbbra is megköveteli az emberi felügyeletet az összetett kódolási feladatokhoz.

Idézetek:
[1] https://www.neowin.net/news/openai-anunces-gpt-45-its-largest-and-most-knowledgeable-model-yet/
[2] https://adasci.org/benchmarking-ai-on-onofware-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-t-t--consider
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-reelease/
[6] https://community.openai.com/t/openai-reases-new-coding-howmark-swe-lancer- Showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-utveils-gpt-4-5-orion-orion-largest-ai-model-yet/