Kinerja GPT-4.5 di Benchmark SWE-Lancer: Kekuatan Manajerial dan Tantangan Pengkodean

Bagaimana kinerja GPT-4.5 pada tugas manajer SWE dibandingkan dengan tugas IC swe

GPT-4.5, model bahasa besar terbaru Openai, menunjukkan berbagai kinerja di berbagai tugas rekayasa perangkat lunak, terutama di tolok ukur SWE-Lancer. Benchmark ini mengevaluasi model AI pada tugas rekayasa perangkat lunak freelance dunia nyata, dibagi menjadi tugas-tugas SWE kontributor (IC) dan tugas manajer SWE.

** Tugas SWE IC melibatkan pengkodean langsung, debugging, dan implementasi, yang membutuhkan model AI untuk memodifikasi kode dan mengirimkan solusi. Tugas-tugas ini dievaluasi menggunakan tes ujung ke ujung. GPT-4.5 mencapai kinerja sederhana pada tugas IC SWE, berhasil memecahkan 20% dari tugas-tugas ini. Ini menunjukkan bahwa sementara GPT-4.5 dapat membantu dengan tugas pengkodean, ia masih menghadapi tantangan dalam pekerjaan pengkodean kompleks yang sepenuhnya mengotomatiskan, mirip dengan model lain yang telah menunjukkan akurasi sekitar 26% pada tugas pengkodean langsung [1] [2].

** Tugas Manajer SWE, di sisi lain, membutuhkan model AI untuk bertindak sebagai prospek teknis, memilih proposal implementasi yang optimal dan membuat keputusan. GPT-4.5 berkinerja lebih baik pada tugas-tugas ini, mencapai tingkat keberhasilan 44%. Ini menunjukkan bahwa GPT-4.5 lebih mahir dalam peran manajerial, seperti mengevaluasi kualitas kode dan membuat keputusan strategis, yang selaras dengan tren umum model AI berkinerja baik pada tugas manajemen, sering mencapai sekitar 45% akurasi [1] [2].

Secara keseluruhan, GPT-4.5 menunjukkan perbedaan nyata dalam kinerjanya antara tugas-tugas IC SWE dan tugas manajer SWE, menyoroti kekuatannya dalam peran manajerial tetapi keterbatasan dalam tugas pengkodean langsung. Perbedaan ini menggarisbawahi potensi AI dalam mendukung rekayasa perangkat lunak, terutama dalam pengambilan keputusan dan peran strategis, sambil tetap membutuhkan pengawasan manusia untuk tugas-tugas pengkodean yang kompleks.

Kutipan:
[1.
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consider
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-slowing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-Unveils-gpt-4-5-orion-its-largest-ai-model-yet/