ประสิทธิภาพ GPT-4.5 บนเกณฑ์มาตรฐาน SWE-LANCER: ความแข็งแกร่งด้านการจัดการและความท้าทายในการเข้ารหัส

ประสิทธิภาพของ GPT-4.5 ในงาน SWE Manager เปรียบเทียบกับงาน IC SWE อย่างไร

GPT-4.5 ซึ่งเป็นรูปแบบภาษาขนาดใหญ่ล่าสุดของ OpenAI แสดงให้เห็นถึงประสิทธิภาพที่แตกต่างกันในงานวิศวกรรมซอฟต์แวร์ที่แตกต่างกันโดยเฉพาะอย่างยิ่งในเกณฑ์มาตรฐาน SWE-LANCER เกณฑ์มาตรฐานนี้ประเมินโมเดล AI ในงานวิศวกรรมซอฟต์แวร์อิสระในโลกแห่งความเป็นจริงแบ่งออกเป็นงาน SWE ผู้มีส่วนร่วม (IC) และงาน SWE Manager

** งาน IC SWE เกี่ยวข้องกับการเข้ารหัสโดยตรงการดีบักและการใช้งานซึ่งต้องการให้โมเดล AI แก้ไขรหัสและส่งโซลูชัน งานเหล่านี้ได้รับการประเมินโดยใช้การทดสอบแบบ end-to-end GPT-4.5 ได้รับประสิทธิภาพเล็กน้อยในงาน IC SWE โดยการแก้ปัญหาเหล่านี้ 20% สิ่งนี้บ่งชี้ว่าในขณะที่ GPT-4.5 สามารถช่วยงานเขียนโค้ดได้ แต่ก็ยังต้องเผชิญกับความท้าทายในงานการเข้ารหัสที่ซับซ้อนโดยอัตโนมัติซึ่งคล้ายกับรุ่นอื่น ๆ ซึ่งแสดงความแม่นยำประมาณ 26% ในงานการเข้ารหัสโดยตรง [1] [2]

ในทางกลับกันงานของผู้จัดการ SWE ต้องการโมเดล AI เพื่อทำหน้าที่เป็นผู้นำทางเทคนิคเลือกข้อเสนอการใช้งานที่ดีที่สุดและการตัดสินใจ GPT-4.5 ทำงานได้ดีขึ้นในงานเหล่านี้บรรลุอัตราความสำเร็จ 44% สิ่งนี้ชี้ให้เห็นว่า GPT-4.5 มีความเชี่ยวชาญในบทบาทการจัดการมากขึ้นเช่นการประเมินคุณภาพรหัสและการตัดสินใจเชิงกลยุทธ์ซึ่งสอดคล้องกับแนวโน้มทั่วไปของแบบจำลอง AI ที่ทำงานได้ดีในงานการจัดการซึ่งมักจะบรรลุความแม่นยำประมาณ 45% [1] [2]

โดยรวมแล้ว GPT-4.5 แสดงความแตกต่างที่เห็นได้ชัดในประสิทธิภาพระหว่างงาน IC SWE และงาน SWE Manager โดยเน้นจุดแข็งในบทบาทการจัดการ แต่ข้อ จำกัด ในงานการเข้ารหัสโดยตรง ความแตกต่างนี้ตอกย้ำศักยภาพของ AI ในการสนับสนุนวิศวกรรมซอฟต์แวร์โดยเฉพาะอย่างยิ่งในการตัดสินใจและบทบาทเชิงกลยุทธ์ในขณะที่ยังคงต้องมีการกำกับดูแลของมนุษย์สำหรับงานการเข้ารหัสที่ซับซ้อน

การอ้างอิง:
[1] https://www.neowin.net/news/openai-announces-gpt-45-its-largest-and-moundgeable-model-model-yet/
[2] https://adasci.org/benchmarking-ai-on-software-tasks-with-openai-swe-lancer/
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-biggest-differences-to-consers
[5] https://topmostads.com/gpt-4-5-vs-gpt-5-release/
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swelancer-howing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8] https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/