Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon GPT-4.5在SWE Manager任务上的性能与IC SWE任务相比


GPT-4.5在SWE Manager任务上的性能与IC SWE任务相比


OpenAI的最新大型语言模型GPT-4.5展示了各种软件工程任务的性能各不相同,尤其是在SWE-Lancer基准中。该基准测试评估了现实世界中的自由软件工程任务上的AI模型,分为单个贡献者(IC)SWE任务和SWE Manager任务。

** IC SWE任务涉及直接编码,调试和实施,需要AI模型来修改代码和提交解决方案。使用端到端测试评估这些任务。 GPT-4.5在IC SWE任务上取得了适度的性能,成功地解决了这些任务的20%。这表明虽然GPT-4.5可以协助编码任务,但它仍然面临着完全自动化复杂编码作业的挑战,类似于其他模型,这些模型在直接编码任务上的准确性约为26%[1] [2]。

**另一方面,SWE经理任务要求AI模型充当技术线索,选择最佳实施建议并做出决策。 GPT-4.5在这些任务上的表现更好,成功率为44%。这表明GPT-4.5更擅长管理角色,例如评估代码质量并做出战略决策,这与AI模型在管理任务上表现良好的一般趋势相吻合,通常可以达到45%的准确性[1] [2]。

总体而言,GPT-4.5在IC SWE任务和SWE Manager任务之间的性能上显示出明显的差异,突出了其在管理角色中的优势,但在直接编码任务中的限制。这种区别强调了AI在支持软件工程方面的潜力,尤其是在决策和战略角色中,同时仍需要对复杂的编码任务进行人体监督。

引用:
[1] https://www.neowin.net/news/openai-announces-gpt-45-is---------------------------------------------------
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-orion-its-largest-ai-model-yet/