Desempenho do GPT-4.5 na referência do SWE-Lancer: forças gerenciais e desafios de codificação

Como o desempenho do GPT-4.5 nas tarefas do SWE Manager se compara às tarefas do IC SWE

O GPT-4.5, o mais recente modelo de idioma do OpenAI, demonstra desempenho variável em diferentes tarefas de engenharia de software, particularmente na referência SWE-Lancer. Este benchmark avalia os modelos de IA em tarefas de engenharia de software freelancer do mundo real, divididas em tarefas SWE de colaborador individual (IC) e tarefas do SWE Manager.

** As tarefas do IC SWE envolvem codificação, depuração e implementação diretas, exigindo que os modelos de IA modifiquem o código e enviem soluções. Essas tarefas são avaliadas usando testes de ponta a ponta. O GPT-4.5 alcançou um desempenho modesto nas tarefas do IC SWE, resolvendo com sucesso 20% dessas tarefas. Isso indica que, embora o GPT-4.5 possa ajudar nas tarefas de codificação, ele ainda enfrenta desafios na automação de trabalhos complexos de codificação complexos, semelhantes a outros modelos que mostraram cerca de 26% de precisão nas tarefas de codificação direta [1] [2].

** As tarefas do SWE Manager, por outro lado, exigem que os modelos de IA atuem como leads técnicos, selecionando propostas ideais de implementação e tomando decisões. O GPT-4.5 teve um desempenho melhor nessas tarefas, alcançando uma taxa de sucesso de 44%. Isso sugere que o GPT-4.5 é mais hábil em funções gerenciais, como avaliar a qualidade do código e tomar decisões estratégicas, que se alinham à tendência geral dos modelos de IA com bom desempenho nas tarefas de gerenciamento, geralmente atingindo cerca de 45% de precisão [1] [2].

No geral, o GPT-4.5 mostra uma disparidade notável em seu desempenho entre as tarefas do IC SWE e as tarefas do SWE Manager, destacando seus pontos fortes nas funções gerenciais, mas limitações nas tarefas de codificação direta. Essa distinção ressalta o potencial da IA no suporte a engenharia de software, particularmente na tomada de decisões e nas funções estratégicas, enquanto ainda exige supervisão humana para tarefas complexas de codificação.

Citações:
[1] https://www.neowin.net/news/openai-announces-gpt-45-its-cargest-and-mot-knowledgeable-model-yet/
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducting-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences to-consider
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-showing-3-5-sonnet-bating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-gargest-ai-model-yet/