GPT-4.5在SWE-Lancer基准测试中的性能：管理优势和编码挑战

GPT-4.5在SWE Manager任务上的性能与IC SWE任务相比

OpenAI的最新大型语言模型GPT-4.5展示了各种软件工程任务的性能各不相同，尤其是在SWE-Lancer基准中。该基准测试评估了现实世界中的自由软件工程任务上的AI模型，分为单个贡献者(IC)SWE任务和SWE Manager任务。

** IC SWE任务涉及直接编码，调试和实施，需要AI模型来修改代码和提交解决方案。使用端到端测试评估这些任务。 GPT-4.5在IC SWE任务上取得了适度的性能，成功地解决了这些任务的20％。这表明虽然GPT-4.5可以协助编码任务，但它仍然面临着完全自动化复杂编码作业的挑战，类似于其他模型，这些模型在直接编码任务上的准确性约为26％[1] [2]。

**另一方面，SWE经理任务要求AI模型充当技术线索，选择最佳实施建议并做出决策。 GPT-4.5在这些任务上的表现更好，成功率为44％。这表明GPT-4.5更擅长管理角色，例如评估代码质量并做出战略决策，这与AI模型在管理任务上表现良好的一般趋势相吻合，通常可以达到45％的准确性[1] [2]。

总体而言，GPT-4.5在IC SWE任务和SWE Manager任务之间的性能上显示出明显的差异，突出了其在管理角色中的优势，但在直接编码任务中的限制。这种区别强调了AI在支持软件工程方面的潜力，尤其是在决策和战略角色中，同时仍需要对复杂的编码任务进行人体监督。

引用：
[1] https://www.neowin.net/news/openai-announces-gpt-45-is---------------------------------------------------
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-orion-its-largest-ai-model-yet/