GPT-4,5-Leistung bei Swe-Lancer Benchmark: Managementstärken und Codierungsherausforderungen

Wie ist die Leistung von GPT-4.5 bei den SWE-Manager-Aufgaben mit IC SWE-Aufgaben verglichen?

GPT-4.5, OpenAs neuestes großes Sprachmodell, zeigt unterschiedliche Leistung bei verschiedenen Software-Engineering-Aufgaben, insbesondere im SWE-Lancer-Benchmark. Dieser Benchmark bewertet KI-Modelle für freiberufliche Software-Engineering-Aufgaben mit realer Welt, die in die Aufgaben des SWE und SWE-Manager-Aufgaben unterteilt sind.

** IC SWE -Aufgaben beinhalten direkte Codierung, Debuggen und Implementierung, wobei AI -Modelle den Code ändern und Lösungen einreichen müssen. Diese Aufgaben werden mit End-to-End-Tests bewertet. GPT-4,5 erzielte eine bescheidene Leistung bei IC SWE-Aufgaben und löste erfolgreich 20% dieser Aufgaben. Dies weist darauf hin, dass GPT-4,5 zwar bei Codierungsaufgaben helfen kann, es jedoch immer noch Herausforderungen bei der vollständigen Automatisierung komplexer Codierungsjobs hat, ähnlich wie andere Modelle, die bei direkten Codierungsaufgaben rund 26% Genauigkeit gezeigt haben [1] [2].

** SWE -Manager -Aufgaben erfordern andererseits, dass KI -Modelle als technische Leads fungieren, optimale Implementierungsvorschläge auswählen und Entscheidungen treffen. GPT-4,5 erzielte bei diesen Aufgaben besser und erreichte eine Erfolgsquote von 44%. Dies deutet darauf hin, dass GPT-4,5 in Führungsrollen wie die Bewertung der Codequalität und die Treffen strategischer Entscheidungen, die mit dem allgemeinen Trend der AI-Modelle, die sich bei Managementaufgaben gut abgeben, häufig über 45% Genauigkeit erfolgen, vertraut sind [1] [2].

Insgesamt zeigt GPT-4,5 eine spürbare Unterschiede in seiner Leistung zwischen IC SWE-Aufgaben und SWE-Manager-Aufgaben und unterstreicht seine Stärken in Führungsrollen, aber Einschränkungen bei direkten Codierungsaufgaben. Diese Unterscheidung unterstreicht das Potenzial von KI bei der Unterstützung von Software-Engineering, insbesondere in Bezug auf Entscheidungsfindung und strategische Rollen, während sie dennoch menschliche Aufsicht für komplexe Codierungsaufgaben erfordern.

Zitate:
[1] https://www.neowin.net/news/openai-Annes-gpt-45-it-largest-and-most-kennbare-model-yet/
[2] https://adasci.org/benchmarking-ai-onsoftware-tasks-penai-swe-lancer/
[3] https://openai.com/index/Introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differenz-to-consider
[5] https://topmestads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-bchmark-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/