GPT-4.5 Performance sur Benchmark Swe-Lancer: Forces de gestion et défis de codage

Comment les performances de GPT-4.5 sur les tâches SWE Manager se comparent-elles aux tâches IC SWE

GPT-4.5, le dernier modèle de grande langue d'OpenAI, montre des performances variables entre différentes tâches d'ingénierie logicielle, en particulier dans la référence Swe-Lancer. Cette référence évalue les modèles d'IA sur les tâches d'ingénierie logicielle indépendantes du monde réel, divisées en tâches SWE contributeur individuelle (IC) et tâches SWE Manager.

** Les tâches SWE IC impliquent un codage direct, un débogage et une implémentation, exigeant des modèles d'IA pour modifier le code et soumettre des solutions. Ces tâches sont évaluées à l'aide de tests de bout en bout. GPT-4.5 a réalisé une performance modeste sur les tâches SWE IC, résolvant avec succès 20% de ces tâches. Cela indique que si GPT-4.5 peut aider à coder les tâches, il est toujours confronté à des défis dans les travaux de codage complexes entièrement automatisés, similaires à d'autres modèles qui ont montré une précision d'environ 26% sur les tâches de codage direct [1] [2].

** Les tâches SWE Manager, en revanche, nécessitent des modèles d'IA pour agir comme des prospects techniques, en sélectionnant des propositions de mise en œuvre optimales et en prenant des décisions. GPT-4.5 a mieux fonctionné sur ces tâches, atteignant un taux de réussite de 44%. Cela suggère que le GPT-4.5 est plus habile aux rôles de gestion, tels que l'évaluation de la qualité du code et la prise de décisions stratégiques, qui s'aligne sur la tendance générale des modèles d'IA fonctionnant bien sur les tâches de gestion, atteignant souvent une précision d'environ 45% [1] [2].

Dans l'ensemble, GPT-4.5 montre une disparité notable dans ses performances entre les tâches SWE IC et les tâches SWE Manager, mettant en évidence ses forces dans les rôles de gestion mais les limites des tâches de codage direct. Cette distinction souligne le potentiel de l'IA dans le soutien de l'ingénierie logicielle, en particulier dans la prise de décision et les rôles stratégiques, tout en nécessitant une surveillance humaine pour des tâches de codage complexes.

Citations:
[1] https://www.neowin.net/news/openai-annouces-gpt-45-ITS-Largest-and-most-knowgeable-Model-yet/
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-loancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchsenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-onsider
[5] https://topstads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-newcoding-benchmark-swe-lancer-shing-3-5-sonnet-beeting-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/