Rendimiento GPT-4.5 en Swe-Lancer Benchmark: Fortalezas gerenciales y desafíos de codificación

¿Cómo se compara el rendimiento de GPT-4.5 en las tareas de SWE Manager con las tareas de IC SWE?

GPT-4.5, el último modelo de lenguaje grande de Openai, demuestra un rendimiento variable en diferentes tareas de ingeniería de software, particularmente en el punto de referencia SWE-Lancer. Este punto de referencia evalúa los modelos de IA en las tareas de ingeniería de software independiente del mundo real, divididas en tareas de SWE de contribuyentes individuales (IC) y tareas SWE Manager.

** Las tareas SWE IC implican codificación directa, depuración e implementación, lo que requiere que los modelos de IA modifiquen el código y envíen soluciones. Estas tareas se evalúan mediante pruebas de extremo a extremo. GPT-4.5 logró un rendimiento modesto en las tareas de IC SWE, resolviendo con éxito el 20% de estas tareas. Esto indica que si bien GPT-4.5 puede ayudar con las tareas de codificación, todavía enfrenta desafíos para automatizar completamente trabajos de codificación complejos, similar a otros modelos que han mostrado alrededor del 26% de precisión en tareas de codificación directa [1] [2].

** Las tareas del gerente SWE, por otro lado, requieren que los modelos AI actúen como clientes potenciales técnicos, seleccionan propuestas de implementación óptimas y tomen decisiones. GPT-4.5 funcionó mejor en estas tareas, logrando una tasa de éxito del 44%. Esto sugiere que GPT-4.5 es más experto en roles gerenciales, como evaluar la calidad del código y tomar decisiones estratégicas, que se alinea con la tendencia general de los modelos de IA que funcionan bien en las tareas de gestión, a menudo logrando alrededor del 45% de precisión [1] [2].

En general, GPT-4.5 muestra una disparidad notable en su rendimiento entre las tareas de IC SWE y las tareas de SWE Manager, destacando sus fortalezas en los roles gerenciales pero limitaciones en las tareas de codificación directa. Esta distinción subraya el potencial de la IA en el apoyo a la ingeniería de software, particularmente en la toma de decisiones y los roles estratégicos, al tiempo que requiere supervisión humana para tareas de codificación compleja.

Citas:
[1] https://www.neowin.net/news/openai-nounces-gpt-45-its-largest-and-most-knowledgable-model-yet/
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-diferences-to-consider
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/