Производительность GPT-4.5 на эталоне SWE-Lancer: управленческие сильные стороны и проблемы кодирования

Как выполняется производительность GPT-4.5 на задачах SWE Manager по сравнению с задачами IC SWE

GPT-4.5, новейшая большая языковая модель Openai, демонстрирует различную производительность в разных задачах разработки программного обеспечения, особенно в эталонном эталоне SWE-Lancer. Этот эталон оценивает модели искусственного интеллекта по вопросам реального фрилансера программного обеспечения, разделенных на отдельные задачи SWE и задачи SWE Manager.

** Задачи IC SWE включают прямое кодирование, отладку и реализацию, требующие моделей искусственного интеллекта для изменения кода и отправки решений. Эти задачи оцениваются с использованием сквозных тестов. GPT-4.5 достиг скромной производительности по задачам IC SWE, успешно решения 20% этих задач. Это указывает на то, что, хотя GPT-4.5 может помочь в задачах кодирования, он по-прежнему сталкивается с проблемами при полной автоматизации сложных заданий по кодированию, аналогично другим моделям, которые показали точность около 26% в задачах прямого кодирования [1] [2].

** С другой стороны, задачи SWE Manager требуют, чтобы модели искусственного интеллекта выступали в качестве технических потенциальных клиентов, выбирали оптимальные предложения по реализации и приняли решения. GPT-4.5 лучше выполнял эти задачи, достигнув уровня успеха 44%. Это говорит о том, что GPT-4.5 более искусен в управленческих ролях, таких как оценка качества кода и принятие стратегических решений, которые согласуются с общей тенденцией моделей искусственного интеллекта, выполняющих хорошие результаты по задачам управления, часто достигая около 45% точности [1] [2].

В целом, GPT-4.5 показывает заметное несоответствие в своей производительности между задачами IC SWE и задачами SWE Manager, подчеркивая его сильные стороны в управленческих ролях, но ограничения в задачах прямого кодирования. Это различие подчеркивает потенциал ИИ в поддержке разработки программного обеспечения, особенно в принятии решений и стратегических ролей, в то же время требуется надзор за человеческим надзором за сложные задачи кодирования.

Цитаты:
[1] https://www.neowin.net/news/openai-announces-gpt-45-its- Laring-and- Most-skengeledgable-model-yet/
[2] https://adasci.org/benchmarking-ai-on-software- Tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-diffferences-to-consider
[5] https://topstaids.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-cengmarkmark-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/