Hiệu suất GPT-4.5 trên điểm chuẩn SWE-Lancer: Điểm mạnh của người quản lý và các thách thức mã hóa

Hiệu suất của GPT-4.5 đối với các nhiệm vụ của người quản lý SWE so với các nhiệm vụ của IC

GPT-4.5, mô hình ngôn ngữ lớn mới nhất của Openai, cho thấy hiệu suất khác nhau giữa các nhiệm vụ kỹ thuật phần mềm khác nhau, đặc biệt là trong điểm chuẩn SWE-Lancer. Điểm chuẩn này đánh giá các mô hình AI về các tác vụ kỹ thuật phần mềm tự do trong thế giới thực, được chia thành các tác vụ SWE và Trình quản lý SWE của SWELENT (IC).

** Các tác vụ của IC SWE liên quan đến mã hóa trực tiếp, gỡ lỗi và triển khai, yêu cầu các mô hình AI phải sửa đổi mã và gửi các giải pháp. Các nhiệm vụ này được đánh giá bằng các thử nghiệm từ đầu đến cuối. GPT-4.5 đã đạt được hiệu suất khiêm tốn trên các nhiệm vụ của IC SWE, giải quyết thành công 20% các nhiệm vụ này. Điều này chỉ ra rằng trong khi GPT-4.5 có thể hỗ trợ các tác vụ mã hóa, nhưng nó vẫn phải đối mặt với những thách thức trong việc tự động hóa hoàn toàn các công việc mã hóa phức tạp, tương tự như các mô hình khác cho thấy độ chính xác khoảng 26% trên các tác vụ mã hóa trực tiếp [1] [2].

** Mặt khác, các nhiệm vụ của Trình quản lý SWE yêu cầu các mô hình AI đóng vai trò là khách hàng tiềm năng kỹ thuật, lựa chọn các đề xuất thực hiện tối ưu và đưa ra quyết định. GPT-4.5 thực hiện tốt hơn trong các nhiệm vụ này, đạt được tỷ lệ thành công là 44%. Điều này cho thấy GPT-4.5 rất giỏi trong vai trò quản lý, chẳng hạn như đánh giá chất lượng mã và đưa ra các quyết định chiến lược, phù hợp với xu hướng chung của các mô hình AI thực hiện tốt các nhiệm vụ quản lý, thường đạt được độ chính xác khoảng 45% [1] [2].

Nhìn chung, GPT-4.5 cho thấy sự chênh lệch đáng chú ý trong hiệu suất giữa các nhiệm vụ IC SWE và các nhiệm vụ của người quản lý SWE, nêu bật những điểm mạnh của nó trong vai trò quản lý nhưng những hạn chế trong các nhiệm vụ mã hóa trực tiếp. Sự khác biệt này nhấn mạnh tiềm năng của AI trong việc hỗ trợ kỹ thuật phần mềm, đặc biệt là trong việc ra quyết định và vai trò chiến lược, trong khi vẫn đòi hỏi sự giám sát của con người đối với các nhiệm vụ mã hóa phức tạp.

Trích dẫn:
.
.
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/GPT-35-vs-GPT-4-Biggest-differences-to-consider
[5] https:
[6] https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-showing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-reancer/
.