Výkon GPT-4,5 v referenčnej hodnote SWE-Lancer: Manažérske silné stránky a výzvy na kódovanie

Ako sa vykonáva výkon GPT-4.5 v úlohách SWE Manager v porovnaní s úlohami IC SWE

GPT-4,5, najnovší model OpenAI, demonštruje rôzny výkon v rôznych úlohách softvérového inžinierstva, najmä v referenčnej hodnote SWE-Lancer. Táto referenčná hodnota hodnotí modely AI na úlohách so softvérovým inžinierstvom so softvérom v reálnom svete, ktoré sú rozdelené do úloh jednotlivých prispievateľov (IC) SWE a úlohy SWE Manager.

** Úlohy IC SWE zahŕňajú priame kódovanie, ladenie a implementáciu, čo vyžaduje, aby modely AI upravili kód a odoslali riešenia. Tieto úlohy sa hodnotia pomocou koncových testov. GPT-4,5 dosiahol skromný výkon pri úlohách IC SWE, čo úspešne riešilo 20% týchto úloh. To naznačuje, že zatiaľ čo GPT-4,5 môže pomôcť pri kódovacích úlohách, stále čelí výzvam v plne automatizácii komplexných kódovacích úloh, podobne ako iné modely, ktoré preukázali približne 26% presnosť pri priamych kódovacích úlohách [1] [2].

** Úlohy manažéra SWE na druhej strane vyžadujú, aby modely AI pôsobili ako technické potenciály, výber optimálnych návrhov implementácie a prijímanie rozhodnutí. GPT-4,5 dosiahol lepšie výsledky pri týchto úlohách a dosiahol úspešnosť 44%. To naznačuje, že GPT-4,5 je v manažérskych rolách adeptovejší, ako je hodnotenie kvality kódu a prijímanie strategických rozhodnutí, ktoré sú v súlade so všeobecným trendom modelov AI, ktoré dobre fungujú pri riadiacich úlohách, často dosahujú približne 45% presnosť [1] [2].

Celkovo GPT-4,5 vykazuje výrazné rozdiely vo svojom výkone medzi úlohami IC SWE a úlohami manažéra SWE, čo zdôrazňuje svoje silné stránky v manažérskych úlohách, ale obmedzenia v úlohách priameho kódovania. Toto rozlíšenie zdôrazňuje potenciál AI pri podpore softvérového inžinierstva, najmä pri rozhodovaní a strategických úlohách, pričom si stále vyžaduje ľudský dohľad nad úlohami komplexných kódovacích úloh.

Citácie:
[1] https://www.neowin.net/news/openai-annunces-gpt-45-its-Largest-and-most-bost-inknowledge-model-yet/
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-licer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://topostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-licer-showing-3-5-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-orion-orion-ent-LrarSk-ai-model-yet/