SWE-LANCER 벤치 마크에서 GPT-4.5 성과 : 관리 강점 및 코딩 문제

SWE 관리자 작업에 대한 GPT-4.5의 성능은 IC SWE 작업과 어떻게 비교됩니까?

OpenAI의 최신 대형 언어 모델 인 GPT-4.5는 특히 SWE-Lancer 벤치 마크에서 다양한 소프트웨어 엔지니어링 작업에서 다양한 성능을 보여줍니다. 이 벤치 마크는 실제 프리랜서 소프트웨어 엔지니어링 작업의 AI 모델을 평가하고 개별 기고자 (IC) SWE 작업 및 SWE 관리자 작업으로 나뉩니다.

** IC SWE 작업에는 직접 코딩, 디버깅 및 구현이 포함되어있어 AI 모델이 코드를 수정하고 솔루션을 제출해야합니다. 이 작업은 엔드 투 엔드 테스트를 사용하여 평가됩니다. GPT-4.5는 IC SWE 작업에 대한 최대한의 성능을 달성하여 이러한 작업의 20%를 성공적으로 해결했습니다. 이는 GPT-4.5가 코딩 작업을 지원할 수 있지만 직접 코딩 작업에 대해 약 26%의 정확도를 보여준 다른 모델과 유사하게 복잡한 코딩 작업을 완전히 자동화하는 데 여전히 문제가 있음을 나타냅니다 [1] [2].

** SWE 관리자 작업은 AI 모델이 기술 리드 역할을 수행하고 최적의 구현 제안을 선택하고 결정을 내립니다. GPT-4.5는 이러한 작업에서 더 잘 수행하여 44%의 성공률을 달성했습니다. 이는 GPT-4.5가 코드 품질 평가 및 전략적 결정과 같은 경영 역할에 더 능숙하다는 것을 시사합니다. 이는 AI 모델의 일반적인 추세와 일치하며 종종 약 45% 정확도를 달성합니다 [1] [2].

전반적으로 GPT-4.5는 IC SWE 작업과 SWE 관리자 작업 간의 성능이 눈에 띄는 차이를 보여 주며 관리 역할의 강점을 강조하지만 직접 코딩 작업의 한계를 강조합니다. 이러한 차이는 소프트웨어 엔지니어링, 특히 의사 결정 및 전략적 역할에서 AI의 잠재력을 강조하면서 복잡한 코딩 작업에 대한 인간의 감독이 필요합니다.

인용 :
[1] https://www.neowin.net/news/openai-announces-gpt-45-its-largest-nkinglegeable-model-yet/
[2] https://adasci.org/benchmarking-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-toconsider
[5] https://topmestads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-4-5-orion-ist-largest-ai-model-yet/