GPT-4.5 SWE-LANCERベンチマークのパフォーマンス：管理上の強みとコーディングの課題

SWEマネージャータスクでのGPT-4.5のパフォーマンスは、IC SWEタスクと比較してどうですか

Openaiの最新の大手言語モデルであるGPT-4.5は、特にSWE-Lancerベンチマークで、さまざまなソフトウェアエンジニアリングタスクでさまざまなパフォーマンスを示しています。このベンチマークは、個々の貢献者(IC)SWEタスクとSWEマネージャータスクに分かれた、実際のフリーランスソフトウェアエンジニアリングタスクのAIモデルを評価します。

** IC SWEタスクには、直接コーディング、デバッグ、および実装が含まれ、AIモデルにコードを変更してソリューションを送信する必要があります。これらのタスクは、エンドツーエンドテストを使用して評価されます。 GPT-4.5は、IC SWEタスクでささやかなパフォーマンスを達成し、これらのタスクの20％を正常に解決しました。これは、GPT-4.5がコーディングタスクを支援できるが、直接コーディングタスクで約26％の精度を示した他のモデルと同様に、複雑なコーディングジョブを完全に自動化する際に課題に直面していることを示しています[1] [2]。

** SWEマネージャーのタスクは、AIモデルが技術的なリードとして機能し、最適な実装提案を選択し、意思決定を行う必要があります。 GPT-4.5はこれらのタスクでより良いパフォーマンスを発揮し、44％の成功率を達成しました。これは、GPT-4.5がコードの品質を評価したり、戦略的決定を下すなど、管理タスクでうまく機能するAIモデルの一般的な傾向と一致する戦略的決定を行うなど、管理の役割にもっと熟達していることを示唆しています。

全体として、GPT-4.5は、IC SWEタスクとSWEマネージャーのタスク間のパフォーマンスにおける顕著な格差を示しており、経営者の役割におけるその強みを強調していますが、直接コーディングタスクの制限を強調しています。この区別は、特に意思決定と戦略的役割におけるソフトウェアエンジニアリングをサポートするAIの可能性を強調し、複雑なコーディングタスクには人間の監視を必要とします。

引用：
[1] https://www.neowin.net/news/openai-Announces-gpt-45-its-lagest and-most-knowledgaible-model-yet/
[2] https://adasci.org/benchmarking-ai-on-software-tasks with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-giggest-differences to-sonsider
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-ists-last-ai-model-yet/