Výkon GPT-4.5 na benchmarku SWE-Lancer: Výzvy manažerských sil a kódování

Jak je výkon GPT-4.5 na úkolech SWE Manager ve srovnání s úkoly IC SWE

GPT-4.5, nejnovější model velkého jazyka OpenAI, ukazuje různé výkonnosti v různých úkolech softwarového inženýrství, zejména v benchmarku SWE-Lancer. Tento benchmark hodnotí modely AI na reálných engineeringových úkolech na volné noze, rozdělených na úkoly SWE a SWE Manager s individuálním přispěvatelem (IC).

** Úkoly IC SWE zahrnují přímé kódování, ladění a implementaci, které vyžadují, aby modely AI upravily kódové a odesílání řešení. Tyto úkoly jsou hodnoceny pomocí testů na end-to-end. GPT-4.5 dosáhl skromného výkonu na úkolech IC SWE a úspěšně vyřešil 20% těchto úkolů. To ukazuje, že zatímco GPT-4.5 může pomoci s úkoly kódování, stále čelí výzvám při plně automatizaci komplexních kódovacích úloh, podobně jako u jiných modelů, které prokázaly přibližně 26% přesnost při přímých kódovacích úkolech [1] [2].

** Úkoly SWE Manager naproti tomu vyžadují, aby modely AI fungovaly jako technické vedení, výběr optimálních návrhů implementace a rozhodování. GPT-4,5 vedl k těmto úkolům lépe a dosáhl úspěšnosti 44%. To naznačuje, že GPT-4,5 je více zběhlý v manažerských rolích, jako je hodnocení kvality kódu a strategická rozhodnutí, která je v souladu s obecným trendem modelů AI, které dobře fungují na úkolech řízení, často dosahují přibližně 45% přesnosti [1] [2].

Celkově GPT-4.5 ukazuje znatelné rozdíly ve svém výkonu mezi úkoly IC SWE a úkoly SWE manažer, což zdůrazňuje jeho silné stránky v manažerských rolích, ale omezení v přímých kódovacích úkolech. Toto rozlišení podtrhuje potenciál AI při podpoře softwarového inženýrství, zejména v rozhodování a strategických rolích, přičemž stále vyžaduje lidský dohled nad složitými úkoly kódování.

Citace:
[1] https://www.neowin.net/news/openai-announces-gpt-45-its-lsting-and --most-nowledgeable-model-det/
[2] https://adasci.org/Benchmarking-ai-on-software-tasks-With-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-difference-to-Consider
[5] https://topstemods.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-bchmark-swe-lancer-Showing-3-5-Connet-o-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion- its-lgestent-ai-model-jet/