Automatic Prompt Engineering (APE) er en metode, der er udviklet til automatisk at generere og vælge naturlige sproginstruktioner (anmodninger) til store sprogmodeller (LLM'er) for at forbedre opgavens ydeevne. Det behandler instruktionen som et "program", der skal optimeres ved at søge over en pulje af instruktionskandidater genereret af en LLM med det formål at maksimere en valgt score -funktion til en bestemt opgave. Udførelsen af den valgte instruktion evalueres derefter ved at anvende den på nul-shot-opgaver med en anden LLM. Denne tilgang står i kontrast til traditionel hurtig teknik, hvor prompter manuelt er udformet af mennesker.
Det har vist sig, at APE overgår de tidligere LLM-baseline-prompter med en betydelig margin og opnå bedre eller sammenlignelig ydelse med menneskegenererede instruktioner på tværs af flere benchmarks. For eksempel demonstrerer eksperimenter, at APE overgår menneskelige konstruerede anmodninger om alle målinger, herunder sandhed og informativitet på sætopgaver. I et sæt med 24 instruktionsinduktionsopgaver og 21 kuraterede big-bench-opgaver var APE-genererede prompter bedre eller sammenlignelige med menneskelige prompter i henholdsvis 19 og 17 opgaver, hvilket indikerer stærk generalisering og præstationskonsistens.
Processen med APE involverer at generere et mangfoldigt sæt kandidatspørgsmål baseret på indledende input-output-eksempler, efterfulgt af at score disse kandidater i henhold til deres effektivitet på opgaven. Dette inkluderer ofte automatiseret evaluering af korrekthed, informativitet eller sandhed. Kandidater over visse kriterier er valgt til yderligere forfining i en iterativ proces, hvor sprogmodellen genererer forbedrede versioner af prompter baseret på tidligere performance -feedback. Denne iterative forfining gør det især muligt for APE at opdage bedre nul-shot-kæde-til-tanker end standard menneskelige konstruerede anmodninger som "lad os tænke trin for trin".
Ape's automatiske tilgang leverer flere praktiske fordele i forhold til manuel hurtig teknik:
- Det reducerer den tid og arbejdskraft, der er involveret i hurtig oprettelse, med rapporter om op til 70% reduktion i udviklingscyklusser, der fremskynder implementering af AI -applikationer.
- Nøjagtigheden af AI -svar kan forbedres med så meget som 35% over manuelt udformede prompter på grund af grundig test og forfining.
- Fejlrater i AI -udgange falder med ca. 45%, hvilket forbedrer pålideligheden.
- Uddannelseseffektivitetsfordele, som APE kan generere syntetiske træningsdata, der fremskynder modelindlæring, især værdifulde inden for specialiserede eller datascarce-domæner.
- Det giver høj tilpasning og tilpasningsevne til forskellige brugssager, der automatisk skræddersy hurtige generationsstrategier til specifikke opgaver uden at kræve menneskelig ekspertise.
- Konsistens i hurtig kvalitet og output sikres ved systematiske og gentagne hurtige generationsprocesser, hvilket reducerer afhængigheden af individuel menneskelig intuition eller dygtighed.
Sammenligning af APE med andre hurtige vejledningsmetoder illustrerer dens unikke fordele. Gennemhentning-augmenteret generation (RAG) kombinerer hentning og generation, men er stadig afhængig af manuel hurtig teknik. Finjustering ændrer modelparametre med domænedata, men kræver store datasæt og beregningsressourcer. Manuel hurtig teknik tillader fleksibilitet, men er tidskrævende og inkonsekvent, mens APE automatiserer hurtig oprettelse og forfining, der kombinerer skalerbarhed med hurtig teknisk tilpasningsevne.
Kvalitative analyser viser, at APE-genererede instruktioner har en tendens til at specialisere sig langs dimensioner af sandhed og informativitet og opnå Pareto-optimale kompromisser, der overgår typiske menneskelige konstruerede anmodninger. Dette antyder, at APE kan guide LLM'er ikke kun til forbedret nøjagtighed, men også mod nuancerede outputegenskaber, der er skræddersyet til applikationsbehov. Det kan også forberede optimerede APE-prompter til få-shot-læringsopsætninger, hvilket forbedrer den samlede læringsydelse.
På trods af sine fordele har APE nogle begrænsninger sammenlignet med manuelle tilgange. Den iterative søgeproces til optimering kan være beregningsmæssigt intensiv og kræver yderligere ressourcer. Effektiv ydelse afhænger stærkt af kvaliteten af den scoringsfunktion, der bruges til at evaluere kandidatopskrivninger, og resultaterne kan variere med forskellige opgavedomæner eller modeller. Krydsmodelinstruktionsoverførsel, hvor instruktioner, der genereres til en model, anvendes til en anden, er begrænset, hvilket kræver opgavespecifik indstilling af prompter for de bedste resultater.
Sammenfattende er de vigtigste præstationsforskelle mellem abe og menneskelige konstruerede anmodninger:
- APE genererer og raffinerer systematisk for at optimere ydeevnen på forskellige opgaver, hvilket fører til bedre eller sammenlignelige resultater på mange evalueringsmetriks, herunder nøjagtighed, sandhed og informativitet.
- Menneskelige prompter kan være inkonsekvente og kræve ekspertindsats; APE automatiserer disse processer og sparer tid, mens du forbedrer præcisionen.
- APE er mere tilpasningsdygtig på tværs af opgaver uden manuel redesign, effektivt skræddersyede instruktioner.
-Afvejningen er i øgede beregningsomkostninger og potentielle behov for opgavespecifik scoringsoptimering.
-APE er blevet demonstreret som et praktisk værktøj til at forbedre nul-shot, få skud og kæde-til-tænkt, der tilskynder til paradigmer, der ofte overgår traditionelle menneskelige konstruerede baseline-promp.