Продуктивність GPT-4.5 на еталоні SWE-Lancer: Сильні сторони та проблеми кодування

Як продуктивність GPT-4.5 у завданнях SWE Manager порівнюється з завданнями IC SWE

GPT-4.5, остання велика мовна модель OpenAI, демонструє різну продуктивність у різних завданнях інженерії програмного забезпечення, особливо в орієнтирі SWE-Lancer. Цей еталон оцінює моделі AI у завданні інженерії програмного забезпечення в реальному світі, розділених на завдання індивідуального учасника (IC) SWE та завдання менеджера SWE.

** IC SWE завдання передбачають пряме кодування, налагодження та впровадження, що вимагають від моделей AI змінювати код та подавати рішення. Ці завдання оцінюються за допомогою тестів на кінець до кінця. GPT-4,5 досяг скромної продуктивності завдань IC SWE, успішно вирішивши 20% цих завдань. Це вказує на те, що, хоча GPT-4.5 може сприяти завданням кодування, він все ще стикається з проблемами в повному автоматизації складних завдань кодування, подібно до інших моделей, які показали близько 26% точності в завданнях прямого кодування [1] [2].

** Завдання менеджера SWE, з іншого боку, вимагають від моделей AI виконувати функції технічних потенційних клієнтів, вибираючи оптимальні пропозиції щодо впровадження та прийняття рішень. GPT-4,5 краще виконував ці завдання, досягнувши рівня успішності 44%. Це говорить про те, що GPT-4.5 є більш вмілим у управлінських ролях, таких як оцінка якості коду та прийняття стратегічних рішень, які узгоджуються із загальною тенденцією моделей AI, які добре виконують завдання управління, часто досягаючи близько 45% точності [1] [2].

В цілому, GPT-4,5 демонструє помітну невідповідність у виконанні завдань IC SWE та завданням менеджера SWE, підкреслюючи його сильні сторони в управлінських ролях, але обмеження в завданнях прямого кодування. Ця відмінність підкреслює потенціал ШІ у підтримці інженерії програмного забезпечення, особливо для прийняття рішень та стратегічних ролей, при цьому все ще вимагає контролю людини для складних завдань кодування.

Цитати:
[1] https://www.neowin.net/news/openai-announces-gpt-45-its-largest-and-most-knowledge-model-yet/
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://toppperads.com/gpt-4-5-vs-gpt-5-relase/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-larest-ai-model-yet/