مقارنة هندسة المطالبات التلقائية (APE) بمطالبات هندسة الإنسان

هندسة المطالبات التلقائية (APE) هي طريقة تم تطويرها لإنشاء واختيار تعليمات اللغة الطبيعية تلقائيًا (مطالبات) لنماذج اللغة الكبيرة (LLMS) لتحسين أداء المهمة. يعامل التعليمات على أنها "برنامج" ليتم تحسينه من خلال البحث عن مجموعة من مرشحو التعليمات التي تم إنشاؤها بواسطة LLM ، بهدف زيادة وظيفة الدرجات المختارة لمهمة محددة. ثم يتم تقييم أداء التعليمات المحددة عن طريق تطبيقه على مهام صفرية مع LLM آخر. يتناقض هذا النهج مع الهندسة الفوري التقليدية ، حيث يتم تصميم المطالبات يدويًا من قبل البشر.

تبين أن APE يتفوق على مطالبات خط الأساس LLM قبل هامش كبير وتحقيق أداء أفضل أو مماثل للتعليمات التي تم إنشاؤها بواسطة الإنسان عبر معايير متعددة. على سبيل المثال ، توضح التجارب أن APE يتفوق على المطالبات التي تم الهندسة البشرية على جميع المقاييس بما في ذلك الصدق والمعلوماتية في المهام المحددة. في مجموعة من 24 مهمة تعليمية التعليمية و 21 مهامًا كبيرة من المقاعد ، كانت المطالبات التي تم إنشاؤها بواسطة APE أفضل أو مماثلة للمطالبات البشرية في 19 و 17 مهمة على التوالي ، مما يشير إلى تعميم قوي واتساق الأداء.

تتضمن عملية APE توليد مجموعة متنوعة من المطالبات المرشحة بناءً على أمثلة مدخلات أولية ، تليها تسجيل هؤلاء المرشحين وفقًا لفعاليتها في المهمة. ويشمل ذلك في كثير من الأحيان التقييم الآلي للصحة أو المعلوماتية أو الصدق. يتم اختيار المرشحين فوق بعض المعايير لمزيد من التحسين في عملية تكرارية ، حيث يولد نموذج اللغة إصدارات محسنة من المطالبات بناءً على ملاحظات الأداء السابقة. يسمح هذا التحسين التكراري بشكل ملحوظ باكتشاف مطالبات أفضل لسلسلة الرصاص صفراً من المطالبات القياسية التي تم الهندسة البشرية مثل "دعنا نفكر خطوة بخطوة".

يوفر النهج التلقائي لـ APE العديد من الفوائد العملية على الهندسة اليدوية:

- إنه يقلل بشكل كبير من الوقت والعمالة المتورطة في الإبداع السريع ، مع تقارير تصل إلى 70 ٪ في دورات التطوير ، وتسريع نشر تطبيقات الذكاء الاصطناعي.
- يمكن تحسين دقة استجابات الذكاء الاصطناعى بنسبة تصل إلى 35 ٪ على المطالبات المصنوعة يدويًا بسبب الاختبار الشامل والصقل.
- انخفضت معدلات الخطأ في مخرجات الذكاء الاصطناعي بنسبة 45 ٪ تقريبًا ، مما يعزز الموثوقية.
- يمكن أن تؤدي فوائد كفاءة التدريب إلى APE إلى توليد بيانات تدريب اصطناعية تسرع في التعلم النماذج ، وخاصة ذات قيمة في المجالات المتخصصة أو النطاق للبيانات.
- يوفر تخصيصًا عاليًا وقدرة على التكيف مع حالات الاستخدام المتنوعة ، وتصميم استراتيجيات توليد المطالبات تلقائيًا لمهام محددة دون الحاجة إلى خبرة بشرية.
- يتم ضمان الاتساق في الجودة والإخراج السريع من خلال عمليات توليد موجات منهجية وقابلة للتكرار ، مما يقلل من الاعتماد على الحدس البشري الفردي أو المهارة.

توضح مقارنة APE مع أساليب التوجيه السريع الأخرى مزاياها الفريدة. يجمع الجيل المتمحور في الاسترجاع (RAG) بين الاسترجاع والتوليد ولكنه لا يزال يعتمد على الهندسة الفاضلة اليدوية. يعدل الضبط الدقيق معلمات النموذج مع بيانات المجال ولكن يتطلب مجموعات بيانات كبيرة وموارد حسابية. تتيح هندسة المطالبة اليدوية المرونة ولكنها تستغرق وقتًا طويلاً وغير متسقة ، بينما تقوم APE بأتمتة إنشاء موجه وصقله ، ويجمع بين القدرة على التوسع مع القدرة على التكيف مع الهندسة المطالبة.

تُظهر التحليلات النوعية أن التعليمات التي تم إنشاؤها بواسطة APE تميل إلى التخصص على طول أبعاد الصدق والمعلوماتية ، وتحقيق المفاضلات الممتازة التي تتجاوز مطالبات هندسة الإنسان النموذجية. هذا يشير إلى أن APE يمكن أن توجه LLMS ليس فقط إلى تحسين الدقة ولكن أيضًا نحو خصائص الإخراج الدقيقة المصممة لتلبية احتياجات التطبيق. كما يمكن أن يطالب APE المحسّنة بإعدادات التعلم القليلة ، مما يعزز أداء التعلم الشامل.

على الرغم من مزاياه ، فإن APE لديها بعض القيود مقارنة بالمناهج اليدوية. يمكن أن تكون عملية البحث التكرارية للتحسين مكثفة من الناحية الحسابية وتتطلب موارد إضافية. يعتمد الأداء الفعال اعتمادًا كبيرًا على جودة وظيفة التسجيل المستخدمة لتقييم مطالبات المرشح ، وقد تختلف النتائج مع مجالات أو نماذج مهمة مختلفة. نقل تعليمات النموذج المتقاطع ، حيث يتم تطبيق الإرشادات التي يتم إنشاؤها لنموذج واحد على آخر ، محدود ، مما يستلزم ضبطًا خاصًا بالمهمة للمطالبات للحصول على أفضل النتائج.

باختصار ، تتمثل الاختلافات الرئيسية في الأداء بين APE والمطالبات ذات الهندسة البشرية.

- تقوم APE بإنشاء ومطالبات APE بشكل منهجي لتحسين الأداء في المهام المتنوعة ، مما يؤدي إلى نتائج أفضل أو قابلة للمقارنة على العديد من مقاييس التقييم بما في ذلك الدقة والصدق والمعلوماتية.
- يمكن أن تكون المطالبات البشرية غير متناسقة وتتطلب جهدًا من الخبراء ؛ APE أتمتة هذه العمليات ، وتوفير الوقت مع تحسين الدقة.
- APE أكثر قابلية للتكيف عبر المهام دون إعادة تصميم يدوي ، وتعليمات الخياطة بكفاءة.
-المفاضلة في زيادة التكلفة الحسابية والحاجة المحتملة لتحسين التهديف المحدد للمهمة.
-تم إظهار APE كأداة عملية لتعزيز نماذج الصفر ، والرحلة القليلة ، وسلسلة النماذج المطلوبة ، وغالبًا ما تتجاوز المطالبات الأساسية التقليدية ذات الهندسة البشرية.

وبالتالي ، تمثل APE تقدمًا كبيرًا في الهندسة الفورية ، وتوفير توليد موجه آلي وقابل للتطوير وعالي الأداء ينافس أو يتجاوز الخبرة البشرية عبر مجموعة واسعة من المهام اللغوية. يشير تطوره إلى وجود اتجاه نحو تصميم التفاعل الأكثر استقلالية والمحسّنة لنماذج اللغة الكبيرة.

كيف تقارن APE بمطالبات الهندسة البشرية من حيث الأداء