GPT-4.5 SWE-Lancer Benchmark'da Performans: Yönetim Gücü ve Kodlama Zorlukları

GPT-4.5'in SWE Manager görevlerindeki performansı IC SWE görevleriyle karşılaştırılıyor

Openai'nin en son büyük dil modeli olan GPT-4.5, özellikle SWE-Lancer karşılaştırmasında, farklı yazılım mühendisliği görevlerinde değişen performansı göstermektedir. Bu kıyaslama, AI modellerini bireysel katkıda bulunan (IC) SWE görevlerine ve SWE yöneticisi görevlerine bölünmüş gerçek dünyadaki serbest yazılım mühendisliği görevlerinde değerlendirir.

** IC SWE görevleri, kodlama, hata ayıklama ve uygulamayı içerir, AI modellerinin kodu değiştirmesi ve çözüm göndermesi gerekir. Bu görevler uçtan uca testler kullanılarak değerlendirilir. GPT-4.5, IC SWE görevlerinde mütevazı bir performans elde etti ve bu görevlerin% 20'sini başarıyla çözdü. Bu, GPT-4.5'in kodlama görevlerine yardımcı olabilse de, doğrudan kodlama görevlerinde yaklaşık% 26 doğruluk gösteren diğer modellere benzer şekilde karmaşık kodlama işlerini tam otomatikleştirmede zorluklarla karşı karşıya olduğunu göstermektedir [1] [2].

** SWE Manager görevleri ise AI modellerinin teknik olası satışlar olarak hareket etmesini, optimum uygulama tekliflerini seçmesini ve karar vermesini gerektirir. GPT-4.5, bu görevlerde daha iyi performans gösterdi ve%44'lük bir başarı oranı elde etti. Bu, GPT-4.5'in, kod kalitesini değerlendirmek ve yönetim görevlerinde iyi performans gösteren AI modellerinin genel eğilimi ile uyumlu olan ve genellikle yaklaşık% 45 doğruluk elde eden stratejik kararlar almak gibi yönetim rollerinde daha becerikli olduğunu göstermektedir [1] [2].

Genel olarak, GPT-4.5, IC SWE görevleri ve SWE Manager görevleri arasındaki performansında belirgin bir eşitsizlik göstermektedir, bu da yönetimsel rollerdeki güçlü yönlerini vurgulamaktadır, ancak doğrudan kodlama görevlerindeki sınırlamalar. Bu ayrım, özellikle karmaşık kodlama görevleri için insan gözetimi gerektirirken, özellikle karar verme ve stratejik rollerde yazılım mühendisliğini destekleme potansiyelinin altını çizmektedir.

Alıntılar:
[1] https://www.neowin.net/news/openai-Announces-gpt-45-its-n-t-most-nost-nowlingableable-tet/
[2] https://adasci.org/benchmarking-ai-on-on-se-software-cons-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-bigest-defferences-to-conder
[5] https://top foursads.com/gpt-4-5-vs-gpt-5-reelease/
[6] https://community.openai.com/t/openai-inrees-3-5-stonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-igest-ai-model-Yet/