การเปรียบเทียบวิศวกรรมพรอมต์อัตโนมัติ (APE) กับพรอมต์ของมนุษย์

Automatic Prompt Engineering (APE) เป็นวิธีการที่พัฒนาขึ้นเพื่อสร้างและเลือกคำแนะนำภาษาธรรมชาติ (พรอมต์) โดยอัตโนมัติสำหรับโมเดลภาษาขนาดใหญ่ (LLMs) เพื่อปรับปรุงประสิทธิภาพการทำงาน มันถือว่าการเรียนการสอนเป็น "โปรแกรม" ที่จะได้รับการปรับให้เหมาะสมโดยการค้นหากลุ่มผู้สมัครคำสั่งที่สร้างโดย LLM โดยมีวัตถุประสงค์เพื่อเพิ่มฟังก์ชั่นคะแนนที่เลือกสำหรับงานเฉพาะ ประสิทธิภาพของคำสั่งที่เลือกจะถูกประเมินโดยใช้งานเป็นศูนย์-shot กับ LLM อื่น วิธีการนี้ตรงกันข้ามกับวิศวกรรมที่รวดเร็วแบบดั้งเดิมซึ่งมนุษย์ได้รับการกระตุ้นด้วยตนเอง

APE ได้รับการแสดงให้มีประสิทธิภาพสูงกว่าพื้นฐาน LLM ก่อนหน้านี้ด้วยอัตรากำไรขั้นต้นที่สำคัญและบรรลุประสิทธิภาพที่ดีขึ้นหรือเปรียบเทียบได้กับคำแนะนำที่มนุษย์สร้างขึ้นในหลายเกณฑ์มาตรฐาน ตัวอย่างเช่นการทดลองแสดงให้เห็นว่า APE มีประสิทธิภาพสูงกว่าการทำวิศวกรรมของมนุษย์ที่ได้รับการตรวจสอบด้วยการวัดทั้งหมดรวมถึงความจริงและความเป็นข้อมูลในงานที่กำหนด ในชุดของงานการแนะนำการสอน 24 ครั้งและงานใหญ่ 21 งานที่ได้รับการดูแลโดย APE ที่สร้างขึ้นมานั้นดีกว่าหรือเทียบเคียงได้กับการแจ้งเตือนของมนุษย์ในงาน 19 และ 17 ตามลำดับ

กระบวนการของ APE เกี่ยวข้องกับการสร้างชุดของการแจ้งเตือนผู้สมัครที่หลากหลายตามตัวอย่างอินพุตอินพุตเริ่มต้นตามด้วยการให้คะแนนผู้สมัครเหล่านี้ตามประสิทธิภาพของพวกเขาในงาน ซึ่งมักจะรวมถึงการประเมินความถูกต้องอัตโนมัติข้อมูลหรือความจริง ผู้สมัครด้านบนเกณฑ์บางอย่างจะถูกเลือกสำหรับการปรับแต่งเพิ่มเติมในกระบวนการวนซ้ำโดยมีรูปแบบภาษาที่สร้างการแจ้งเตือนรุ่นที่ได้รับการปรับปรุงตามข้อเสนอแนะประสิทธิภาพก่อนหน้านี้ การปรับแต่งซ้ำ ๆ นี้ทำให้ Ape สามารถค้นพบการแจ้งเตือนโซ่ที่มีความคิดที่ดีกว่าเป็นศูนย์มากกว่าที่มนุษย์ได้รับการตรวจสอบด้วยมาตรฐานเช่น "ลองคิดทีละขั้นตอน"

วิธีการอัตโนมัติของ APE มอบผลประโยชน์ในทางปฏิบัติหลายอย่างผ่านวิศวกรรมที่รวดเร็วด้วยตนเอง:

- ช่วยลดเวลาและแรงงานที่เกี่ยวข้องกับการสร้างสรรค์อย่างรวดเร็วด้วยรายงานการลดลงของรอบการพัฒนามากถึง 70% เร่งการปรับใช้แอปพลิเคชัน AI
- ความแม่นยำของการตอบสนอง AI สามารถปรับปรุงได้มากถึง 35% จากการแจ้งเตือนที่สร้างขึ้นด้วยตนเองเนื่องจากการทดสอบและการปรับแต่งอย่างละเอียด
- อัตราความผิดพลาดในเอาต์พุต AI ลดลงประมาณ 45%เพิ่มความน่าเชื่อถือ
- ประโยชน์การฝึกอบรมประสิทธิภาพในขณะที่ APE สามารถสร้างข้อมูลการฝึกอบรมสังเคราะห์ที่เร่งการเรียนรู้แบบจำลองโดยเฉพาะอย่างยิ่งที่มีคุณค่าในโดเมนเฉพาะหรือข้อมูลสากล
- ให้การปรับแต่งสูงและการปรับตัวให้เข้ากับกรณีการใช้งานที่หลากหลายโดยอัตโนมัติปรับแต่งกลยุทธ์การสร้างพรอมต์ให้กับงานที่เฉพาะเจาะจงโดยไม่ต้องใช้ความเชี่ยวชาญของมนุษย์
- ความสม่ำเสมอในคุณภาพและเอาต์พุตที่รวดเร็วนั้นได้รับการรับรองโดยกระบวนการสร้างพรอมต์ที่เป็นระบบและทำซ้ำได้ลดการพึ่งพาการใช้สัญชาตญาณหรือทักษะของมนุษย์

การเปรียบเทียบลิงกับวิธีการชี้นำคำแนะนำอื่น ๆ แสดงให้เห็นถึงข้อได้เปรียบที่เป็นเอกลักษณ์ Retrieval-Augmented Generation (RAG) รวมการดึงและการสร้าง แต่ยังต้องอาศัยวิศวกรรมที่รวดเร็วด้วยตนเอง การปรับแต่งปรับเปลี่ยนพารามิเตอร์โมเดลด้วยข้อมูลโดเมน แต่ต้องการชุดข้อมูลขนาดใหญ่และทรัพยากรการคำนวณ วิศวกรรมพรอมต์แบบแมนนวลช่วยให้มีความยืดหยุ่น แต่ใช้เวลานานและไม่สอดคล้องกันในขณะที่ APE โดยอัตโนมัติสร้างการสร้างและการปรับแต่งโดยอัตโนมัติรวมความสามารถในการปรับขนาดเข้ากับความสามารถในการปรับตัวของวิศวกรรมที่รวดเร็ว

การวิเคราะห์เชิงคุณภาพแสดงให้เห็นว่าคำแนะนำที่สร้างโดย APE มีแนวโน้มที่จะเชี่ยวชาญตามมิติของความจริงและความเป็นจริงการบรรลุการแลกเปลี่ยนที่ดีที่สุดของ Pareto ซึ่งเหนือกว่าการแจ้งเตือนของมนุษย์โดยทั่วไป สิ่งนี้ชี้ให้เห็นว่า APE สามารถให้คำแนะนำ LLMS ไม่เพียง แต่เพื่อปรับปรุงความแม่นยำ แต่ยังรวมถึงลักษณะเอาต์พุตที่เหมาะสมยิ่งขึ้นซึ่งเหมาะกับความต้องการของแอปพลิเคชัน นอกจากนี้ยังสามารถเติมเต็ม APE ที่ได้รับการปรับปรุงให้ดีที่สุดสำหรับการตั้งค่าการเรียนรู้ไม่กี่ครั้งเพื่อเพิ่มประสิทธิภาพการเรียนรู้โดยรวม

แม้จะมีข้อได้เปรียบ แต่ลิงก็มีข้อ จำกัด บางประการเมื่อเทียบกับวิธีการด้วยตนเอง กระบวนการค้นหาซ้ำสำหรับการเพิ่มประสิทธิภาพสามารถคำนวณได้อย่างเข้มข้นและต้องการทรัพยากรเพิ่มเติม ประสิทธิภาพที่มีประสิทธิภาพขึ้นอยู่กับคุณภาพของฟังก์ชั่นการให้คะแนนที่ใช้ในการประเมินพรอมต์ของผู้สมัครและผลลัพธ์อาจแตกต่างกันไปตามโดเมนหรือโมเดลงานที่แตกต่างกัน การถ่ายโอนคำสั่ง Cross-Model ซึ่งคำแนะนำที่สร้างขึ้นสำหรับรุ่นหนึ่งจะถูกนำไปใช้กับอีกรุ่นหนึ่งมี จำกัด ซึ่งจำเป็นต้องมีการปรับแต่งเฉพาะงานของพรอมต์เพื่อผลลัพธ์ที่ดีที่สุด

โดยสรุปความแตกต่างของประสิทธิภาพที่สำคัญระหว่าง APE และการแจ้งเตือนของมนุษย์คือ:

- APE สร้างและปรับแต่งอย่างเป็นระบบพร้อมที่จะเพิ่มประสิทธิภาพการทำงานในงานที่หลากหลายนำไปสู่ผลลัพธ์ที่ดีขึ้นหรือเทียบเท่ากับการประเมินจำนวนมากรวมถึงความแม่นยำความจริงและการให้ข้อมูล
- การแจ้งเตือนของมนุษย์อาจไม่สอดคล้องกันและต้องใช้ความพยายามอย่างเชี่ยวชาญ APE ทำให้กระบวนการเหล่านี้เป็นไปโดยอัตโนมัติประหยัดเวลาในขณะที่ปรับปรุงความแม่นยำ
- ลิงสามารถปรับเปลี่ยนได้มากขึ้นในงานที่ไม่มีการออกแบบด้วยตนเองการปรับแต่งอย่างมีประสิทธิภาพ
-การแลกเปลี่ยนอยู่ในค่าใช้จ่ายในการคำนวณที่เพิ่มขึ้นและความต้องการที่อาจเกิดขึ้นสำหรับการเพิ่มประสิทธิภาพการให้คะแนนเฉพาะงาน
-APE ได้รับการพิสูจน์แล้วว่าเป็นเครื่องมือที่ใช้งานได้จริงเพื่อเพิ่มประสิทธิภาพการยิงแบบศูนย์การยิงสองสามครั้งและการกระตุ้นความคิดที่มีความคิดซึ่งมักจะเกินกว่าที่มนุษย์ได้รับการปรับปรุงด้วยระบบ

ดังนั้น APE จึงแสดงให้เห็นถึงความก้าวหน้าที่สำคัญในด้านวิศวกรรมที่รวดเร็วโดยให้การสร้างพรอมต์อัตโนมัติที่ปรับขนาดได้และมีประสิทธิภาพสูงกว่าซึ่งเป็นคู่แข่งหรือสูงกว่าความเชี่ยวชาญของมนุษย์ในงานภาษาที่หลากหลาย การพัฒนาของมันบ่งบอกถึงแนวโน้มไปสู่การออกแบบการโต้ตอบแบบอิสระและปรับให้เหมาะสมสำหรับแบบจำลองภาษาขนาดใหญ่

APE เปรียบเทียบกับการแจ้งเตือนของมนุษย์ในแง่ของประสิทธิภาพอย่างไร