Automatic Prompt Engineering (APE) is een methode die is ontwikkeld om automatisch natuurlijke taalinstructies (prompts) voor grote taalmodellen (LLM's) automatisch te genereren en te selecteren om de taakprestaties te verbeteren. Het behandelt de instructie als een "programma" dat moet worden geoptimaliseerd door te zoeken naar een pool van instructiekandidaten die worden gegenereerd door een LLM, met als doel een gekozen scorefunctie voor een specifieke taak te maximaliseren. De prestaties van de geselecteerde instructie worden vervolgens geëvalueerd door deze toe te passen op nul-shot taken met een andere LLM. Deze benadering staat in contrast met traditionele snelle engineering, waarbij aanwijzingen handmatig door mensen worden vervaardigd.
Er is aangetoond dat APE beter presteert dan de basis van LLM basislijnprompts met een significante marge en betere of vergelijkbare prestaties behaalt met door mensen gegenereerde instructies in meerdere benchmarks. Experimenten tonen bijvoorbeeld aan dat APE beter presteert dan door mensen ontworpen aanwijzingen op alle statistieken, inclusief waarachtigheid en informativiteit bij vaste taken. In een set van 24 instructie-inductietaken en 21 samengestelde big-bank-taken waren AP-gegenereerde aanwijzingen beter of vergelijkbaar met menselijke prompts in respectievelijk 19 en 17 taken, wat duidt op een sterke generalisatie- en prestatiebestendigheid.
Het APE-proces omvat het genereren van een diverse set kandidaat-prompts op basis van initiële voorbeelden van de invoer-output, gevolgd door het scoren van deze kandidaten op basis van hun effectiviteit op de taak. Dit omvat vaak geautomatiseerde evaluatie van correctheid, informativiteit of waarachtigheid. Kandidaten boven bepaalde criteria worden geselecteerd voor verdere verfijning in een iteratief proces, waarbij het taalmodel verbeterde versies van prompts genereert op basis van eerdere feedback van prestaties. Deze iteratieve verfijning stelt met name APE in staat om een betere nul-shot-debitte maisdoekprompts te ontdekken dan standaard door mensen ontworpen prompts zoals "Laten we stap voor stap denken".
Ape's automatische aanpak levert verschillende praktische voordelen op voor handmatige prompt engineering:
- Het vermindert de tijd en arbeid die betrokken is bij snelle creatie, met meldingen van maximaal 70% vermindering van ontwikkelingscycli, waardoor de inzet van AI -toepassingen wordt versneld.
- De nauwkeurigheid van AI -reacties kan met maar liefst 35% worden verbeterd ten opzichte van handmatig vervaardigde aanwijzingen als gevolg van grondige tests en verfijning.
- Foutpercentages in AI -uitgangen dalen met ongeveer 45%, waardoor de betrouwbaarheid wordt verbeterd.
- Voordelen voor trainingsefficiëntie als APE kan synthetische trainingsgegevens genereren die het leren van het model versnellen, met name waardevol in gespecialiseerde of data-scarce domeinen.
- Het biedt een hoge aanpassing en aanpassingsvermogen aan diverse use cases, waarbij de strategieën voor snelle generatie automatisch worden aangepast aan specifieke taken zonder menselijke expertise.
- Consistentie in snelle kwaliteit en output wordt gewaarborgd door systematische en herhaalbare snel generatieprocessen, waardoor de afhankelijkheid van individuele menselijke intuïtie of vaardigheden wordt verminderd.
Het vergelijken van APE met andere snelle richtlagemethoden illustreert de unieke voordelen ervan. Ophalen-augmented Generation (RAG) combineert ophalen en genereren, maar vertrouwt nog steeds op handmatige prompt engineering. Fijnafstemming wijzigt modelparameters met domeingegevens maar vereist grote datasets en computationele bronnen. Handmatige prompt engineering maakt flexibiliteit mogelijk, maar is tijdrovend en inconsistent, terwijl APE snelle creatie en verfijning automatiseert, waarbij schaalbaarheid wordt gecombineerd met het aanpassingsvermogen van prompt engineering.
Kwalitatieve analyses tonen aan dat door APE gegenereerde instructies de neiging hebben zich te specialiseren met dimensies van waarachtigheid en informativiteit, het bereiken van Pareto-optimale afwegingen die typische door mensen ontwikkelde prompts overtreffen. Dit suggereert dat APE LLMS kan leiden, niet alleen naar verbeterde nauwkeurigheid, maar ook naar genuanceerde uitvoerkenmerken op maat gemaakt op applicatiebehoeften. Het kan ook geoptimaliseerde APE-aanwijzingen voorbereiden op weinig schot-leerinstellingen, waardoor de algehele leerprestaties worden verbeterd.
Ondanks zijn voordelen heeft APE enkele beperkingen in vergelijking met handmatige benaderingen. Het iteratieve zoekproces voor optimalisatie kan rekenintensief zijn en vereisen extra bronnen. Effectieve prestaties hangen sterk af van de kwaliteit van de scorefunctie die wordt gebruikt om kandidaat -prompts te evalueren, en de resultaten kunnen variëren met verschillende taakdomeinen of modellen. Cross-model instructieoverdracht, waarbij instructies gegenereerd voor het ene model worden toegepast op het andere, is beperkt, waardoor taakspecifieke afstemming van aanwijzingen voor de beste resultaten nodig is.
Samenvattend zijn de belangrijkste prestatieverschillen tussen aap- en door mensen ontworpen prompts:
- APE genereert systematisch en verfijnt prompts om de prestaties op verschillende taken te optimaliseren, wat leidt tot betere of vergelijkbare resultaten over veel evaluatiemetrieken, waaronder nauwkeurigheid, waarachtigheid en informativiteit.
- Menselijke aanwijzingen kunnen inconsistent zijn en vereisen deskundige inspanningen; APE automatiseert deze processen, bespaart tijd terwijl de precisie wordt verbeterd.
- APE is meer aanpasbaar over taken zonder handmatig herontwerp, efficiënt maatschappelijke instructies.
-De afweging is in hogere rekenkosten en de mogelijke behoefte aan taakspecifieke scoringsoptimalisatie.
-APE is aangetoond als een praktisch hulpmiddel om nul-shot, weinig-shot en debit overdachte paradigma's te verbeteren, die vaak traditionele door mensen ontworpen basislijnprompts overtreffen.