Compararea ingineriei prompt automat (APE) cu prompturile proiectate de om

Ingineria promptă automată (APE) este o metodă dezvoltată pentru a genera și selecta automat instrucțiuni de limbaj natural (prompturi) pentru modele de limbaj mare (LLM) pentru a îmbunătăți performanța sarcinii. Acesta tratează instrucțiunea ca un „program” pentru a fi optimizat prin căutarea unui grup de candidați de instrucțiuni generate de un LLM, urmărind să maximizeze o funcție de scor aleasă pentru o sarcină specifică. Performanța instrucțiunilor selectate este apoi evaluată prin aplicarea acesteia la sarcini zero cu un alt LLM. Această abordare contrastează cu inginerie promptă tradițională, unde prompturile sunt elaborate manual de oameni.

Ape s-a dovedit că depășește prompturile de bază anterioare LLM cu o marjă semnificativă și obține o performanță mai bună sau comparabilă cu instrucțiunile generate de om pe mai multe repere. De exemplu, experimentele demonstrează că APE depășește prompturile proiectate de oameni cu privire la toate valorile, inclusiv veridicitatea și informația cu privire la sarcinile stabilite. Într-un set de 24 de sarcini de inducție a instrucțiunilor și 21 de sarcini cu bandă mare curatată, prompturile generate de APE au fost mai bune sau comparabile cu prompturile umane în 19 și, respectiv, 17 sarcini, ceea ce indică o generalizare puternică și consecvență a performanței.

Procesul de APE implică generarea unui set divers de prompturi candidate pe baza unor exemple inițiale de intrare-ieșire, urmată de notarea acestor candidați în funcție de eficacitatea lor asupra sarcinii. Aceasta include adesea evaluarea automată a corectitudinii, informației sau veridicității. Candidații deasupra anumitor criterii sunt selectați pentru perfecționare ulterioară într -un proces iterativ, modelul de limbă generând versiuni îmbunătățite de prompturi bazate pe feedback -ul anterior al performanței. Această rafinament iterativă permite în special APE să descopere mai bine prompturile de lanț de gândire zero decât prompturile standard ale grupului, precum „Să gândim pas cu pas”.

Abordarea automată a APE oferă mai multe beneficii practice față de inginerie promptă manuală:

- Reduce semnificativ timpul și forța de muncă implicată în crearea promptă, cu rapoarte despre reducerea de până la 70% a ciclurilor de dezvoltare, accelerând implementarea aplicațiilor AI.
- Precizia răspunsurilor AI poate fi îmbunătățită cu până la 35% față de prompturile elaborate manual din cauza testării și perfecționării minuțioase.
- Ratele de eroare în producțiile AI scad cu aproximativ 45%, îmbunătățind fiabilitatea.
- Beneficiile de eficiență a instruirii pe măsură ce APE pot genera date de formare sintetică care accelerează învățarea modelului, în special valoroasă în domenii specializate sau de scară de date.
- Oferă personalizare ridicată și adaptabilitate la cazuri de utilizare diverse, adaptând automat strategiile de generare promptă la sarcini specifice, fără a necesita expertiză umană.
- Coerența în calitatea și ieșirea promptă este asigurată de procese sistematice și repetabile de generare promptă, reducând dependența de intuiția sau abilitatea umană individuală.

Compararea APE cu alte metode de orientare promptă ilustrează avantajele sale unice. Generarea-crescută de recuperare (RAG) combină regăsirea și generarea, dar se bazează în continuare pe inginerie promptă manuală. Reglarea fină modifică parametrii modelului cu datele de domeniu, dar necesită seturi de date mari și resurse de calcul. Ingineria promptă manuală permite flexibilitate, dar consumă timp și inconsistent, în timp ce APE automatizează crearea și rafinarea promptă, combinând scalabilitatea cu adaptabilitatea promptă a ingineriei.

Analizele calitative arată că instrucțiunile generate de ape tind să se specializeze de-a lungul dimensiunilor veridicității și informativității, obținând compromisuri paretim-optime care depășesc prompturile tipice de proiectare a omului. Acest lucru sugerează că APE poate ghida LLMS nu numai spre o precizie îmbunătățită, ci și spre caracteristicile de ieșire nuanțate adaptate nevoilor aplicației. De asemenea, poate prepara prompturi optimizate de APE pentru setări de învățare cu puține fotografii, îmbunătățind performanța generală a învățării.

În ciuda avantajelor sale, APE are unele limitări în comparație cu abordările manuale. Procesul de căutare iterativă pentru optimizare poate fi intensiv din punct de vedere al calculului și necesită resurse suplimentare. Performanța eficientă depinde foarte mult de calitatea funcției de notare utilizate pentru a evalua prompturile candidaților, iar rezultatele pot varia cu diferite domenii sau modele de sarcină. Transferul de instrucțiuni transversale, în cazul în care instrucțiunile generate pentru un model sunt aplicate la altul, este limitat, necesitând reglarea specifică a sarcinilor pentru cele mai bune rezultate.

În rezumat, diferențele cheie de performanță dintre apele APE și prompturile proiectate de om sunt:

- APE generează în mod sistematic și rafinează solicitări pentru optimizarea performanței pe diverse sarcini, ceea ce duce la rezultate mai bune sau comparabile pe multe valori de evaluare, inclusiv precizia, veridicitatea și informația.
- Prompturile umane pot fi inconsistente și necesită efort de expertiză; APE automatizează aceste procese, economisind timp în timp ce îmbunătățește precizia.
- APE este mai adaptabil în sarcinile fără reproiectare manuală, instrucțiuni de adaptare eficientă.
-Completarea este în creșterea costurilor de calcul și a nevoii potențiale de optimizare a punctajului specific sarcinii.
-APE-ul a fost demonstrat ca un instrument practic pentru a îmbunătăți paradigmele care promit cu fotografii zero, cu puține fotografii și în lanț de gândire, care depășesc adesea prompturile tradiționale de referință.

Astfel, APE reprezintă un avans semnificativ în inginerie promptă, oferind o generație promptă automată, scalabilă și mai performantă, care rivalizează sau depășește expertiza umană într-o gamă largă de sarcini de limbaj. Dezvoltarea sa indică o tendință către un design de interacțiune mai autonom și optimizat pentru modele de limbaj mare.

Cum se compară apele cu prompturile proiectate de om în ceea ce privește performanța