Automatic førteknikk (APE) er en metode utviklet for automatisk å generere og velge naturlige språkinstruksjoner (spørsmål) for store språkmodeller (LLMS) for å forbedre oppgaveutførelsen. Den behandler instruksjonen som et "program" som skal optimaliseres ved å søke over et basseng med instruksjonskandidater generert av en LLM, og tar sikte på å maksimere en valgt scorefunksjon for en spesifikk oppgave. Ytelsen til den valgte instruksjonen blir deretter evaluert ved å bruke den på null-shot-oppgaver med en annen LLM. Denne tilnærmingen står i kontrast til tradisjonell rask prosjektering, der spørsmål er manuelt laget av mennesker.
APE har vist seg å utkonkurrere tidligere LLM-baseline-spørsmål med en betydelig margin og oppnå bedre eller sammenlignbar ytelse med mennesker-genererte instruksjoner på tvers av flere referanser. For eksempel demonstrerer eksperimenter at APE overgår menneskemessige konstruerte spørsmål om alle beregninger, inkludert sannhet og informativitet om faste oppgaver. I et sett med 24 instruksjonsinduksjonsoppgaver og 21 kuraterte storbenkoppgaver, var APE-genererte spørsmål bedre eller sammenlignbare med menneskelige spørsmål i henholdsvis 19 og 17 oppgaver, noe som indikerer sterk generalisering og ytelseskonsistens.
Prosessen med APE innebærer å generere et mangfoldig sett med kandidatforespørsler basert på innledende eksempler på inngangsutgangen, fulgt av å score disse kandidatene i henhold til deres effektivitet på oppgaven. Dette inkluderer ofte automatisert evaluering av korrekthet, informativitet eller sannhet. Kandidater over visse kriterier er valgt for videre foredling i en iterativ prosess, med språkmodellen som genererer forbedrede versjoner av spørsmål basert på tidligere tilbakemeldinger fra ytelsen. Denne iterative foredlingen gjør det mulig for APE å oppdage bedre null-shot-kjede-av-tankt spørsmål enn standard menneskelige konstruerte spørsmål som "La oss tenke trinn for trinn".
APEs automatiske tilnærming gir flere praktiske fordeler fremfor manuell hurtig prosjektering:
- Det reduserer tiden og arbeidskraften som er involvert i hurtig oppretting, med rapporter om opptil 70% reduksjon i utviklingssykluser, og akselererer distribusjonen av AI -applikasjoner.
- Nøyaktigheten av AI -svar kan forbedres med så mye som 35% i forhold til manuelt utformede spørsmål på grunn av grundig testing og foredling.
- Feilhastigheter i AI -utgangene synker med omtrent 45%, noe som forbedrer påliteligheten.
- Fordeler med treningseffektivitet som APE kan generere syntetiske treningsdata som akselererer modelllæring, spesielt verdifulle i spesialiserte eller datasarce-domener.
- Det gir høy tilpasning og tilpasningsevne til forskjellige brukssaker, og skreddersyr automatisk hurtig generasjonsstrategier til spesifikke oppgaver uten å kreve menneskelig kompetanse.
- Konsistens i hurtig kvalitet og output er sikret av systematiske og repeterbare hurtigproduksjonsprosesser, noe som reduserer avhengigheten av individuell menneskelig intuisjon eller dyktighet.
Sammenligning av APE med andre hurtig veiledningsmetoder illustrerer dens unike fordeler. Henting-augmentert generasjon (RAG) kombinerer gjenfinning og generasjon, men er fortsatt avhengig av manuell hurtig prosjektering. Finjustering endrer modellparametere med domenedata, men krever store datasett og beregningsressurser. Manuell rask prosjektering tillater fleksibilitet, men er tidkrevende og inkonsekvent, mens APE automatiserer rask oppretting og foredling, og kombinerer skalerbarhet med hurtig ingeniørens tilpasningsevne.
Kvalitative analyser viser at APE-genererte instruksjoner har en tendens til å spesialisere seg langs dimensjoner av sannhet og informativitet, og oppnå pareto-optimale avveininger som overgår typiske menneskemonterte spørsmål. Dette antyder at APE kan veilede LLM -er ikke bare til forbedret nøyaktighet, men også mot nyanserte utgangsegenskaper tilpasset applikasjonsbehov. Det kan også forberede optimaliserte ape-spørsmål til få-skudd læringsoppsett, og forbedre den generelle læringsytelsen.
Til tross for fordelene har APE noen begrensninger sammenlignet med manuelle tilnærminger. Den iterative søkeprosessen for optimalisering kan være beregningsintensiv og krever ytterligere ressurser. Effektiv ytelse avhenger sterkt av kvaliteten på scoringsfunksjonen som brukes til å evaluere kandidathjul, og resultatene kan variere med forskjellige oppgavedomener eller modeller. Tverrmodellinstruksjonsoverføring, der instruksjoner generert for en modell blir brukt på en annen, er begrenset, noe som nødvendiggjør oppgavespesifikk innstilling av spørsmål for best resultat.
Oppsummert er de viktigste ytelsesforskjellene mellom APE og menneskelige konstruerte spørsmål:
- APE genererer og foredler instruksjoner systematisk for å optimalisere ytelsen på forskjellige oppgaver, noe som fører til bedre eller sammenlignbare resultater på mange evalueringsmålinger inkludert nøyaktighet, sannhet og informativitet.
- Menneskelige spørsmål kan være inkonsekvente og kreve ekspertinnsats; APE automatiserer disse prosessene, sparer tid mens du forbedrer presisjonen.
- APE er mer tilpasningsdyktig på tvers av oppgaver uten manuell redesign, og skreddersyr instruksjonene effektivt.
-Avveiningen er i økt beregningskostnad og potensielt behov for oppgavespesifikk scoringsoptimalisering.
-APE har blitt demonstrert som et praktisk verktøy for å forbedre null-skudd, få-skudd og tenkende kjede som ber om paradigmer, og ofte overgår tradisjonelle menneskemonterte baseline-spørsmål.