Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon كيف يقارن أداء GPT-4.5 على مهام SWE Manager بمهام IC SWE


كيف يقارن أداء GPT-4.5 على مهام SWE Manager بمهام IC SWE


يوضح GPT-4.5 ، أحدث نموذج لغوي كبير من Openai ، أداء متفاوتًا عبر مهام هندسة البرمجيات المختلفة ، وخاصة في مؤشر SWE-Lancer. يقيم هذا المعيار نماذج الذكاء الاصطناعى على مهام هندسة البرمجيات المستقلة في العالم الحقيقي ، مقسمة إلى مهام SWE الفردية (IC) ومهام مدير SWE.

** تتضمن مهام IC SWE الترميز المباشر وتصحيح الأخطاء والتنفيذ ، وتتطلب من نماذج الذكاء الاصطناعي تعديل التعليمات البرمجية وتقديم الحلول. يتم تقييم هذه المهام باستخدام الاختبارات الشاملة. حقق GPT-4.5 أداءً متواضعًا في مهام IC SWE ، وحل 20 ٪ من هذه المهام بنجاح. يشير هذا إلى أنه على الرغم من أن GPT-4.5 يمكن أن يساعد في مهام الترميز ، إلا أنه لا يزال يواجه تحديات في أتمتة وظائف الترميز المعقدة بالكامل ، على غرار النماذج الأخرى التي أظهرت حوالي 26 ٪ دقة في مهام الترميز المباشر [1] [2].

** تتطلب مهام SWE Manager ، من ناحية أخرى ، نماذج منظمة العفو الدولية للعمل كقوات فنية ، واختيار مقترحات التنفيذ المثلى واتخاذ القرارات. كان أداء GPT-4.5 أفضل في هذه المهام ، حيث حقق معدل نجاح قدره 44 ٪. هذا يشير إلى أن GPT-4.5 أكثر مهارة في الأدوار الإدارية ، مثل تقييم جودة الكود واتخاذ القرارات الاستراتيجية ، والتي تتماشى مع الاتجاه العام لنماذج الذكاء الاصطناعى التي تؤدي بشكل جيد في مهام الإدارة ، وغالبًا ما تحقق دقة 45 ٪ [1] [2].

بشكل عام ، يُظهر GPT-4.5 تباينًا ملحوظًا في أدائها بين مهام IC SWE ومهام مدير SWE ، مما يبرز نقاط قوتها في الأدوار الإدارية ولكن القيود في مهام الترميز المباشر. يؤكد هذا التمييز على إمكانات الذكاء الاصطناعى في دعم هندسة البرمجيات ، وخاصة في اتخاذ القرارات والأدوار الاستراتيجية ، في حين لا تزال تتطلب الرقابة البشرية على مهام الترميز المعقدة.

الاستشهادات:
[1]
[2]
[3] https://openai.com/index/introducing-gpt-4-5/
[4] https://www.techtarget.com/searchenterpriseai/tip/gpt-35-vs-gpt-4-bigest-differences-to-consider
[5]
[6] https://community.openai.com/t/openai-rleases-new-coding-benchmark-swe-lancer-howing-3-5-sonnet-beating-o1/1123976
[7] https://openai.com/index/swe-lancer/
[8]