Hoe verhoudt APE zich qua prestaties tot door mensen ontworpen aanwijzingen?

Op basis van de zoekresultaten zijn de belangrijkste bevindingen over hoe Automatic Prompt Engineering (APE) zich verhoudt tot door mensen ontworpen prompts:

1. Zero-Shot-prestaties: de zoekresultaten geven aan dat door APE gegenereerde prompts beter kunnen presteren dan door mensen ontworpen prompts bij een verscheidenheid aan taken in een zero-shot-omgeving. Op de TruthfulQA-benchmark behaalden de door APE gegenereerde prompts bijvoorbeeld hogere scores op statistieken als waarheidsgetrouwheid en informativiteit vergeleken met door mensen gemaakte prompts [1].

2. Few-Shot In-Context Learning: Er is ook aangetoond dat door APE gegenereerde aanwijzingen de leerprestaties van taalmodellen in enkele shots in de context verbeteren in vergelijking met door mensen ontworpen aanwijzingen. De zoekresultaten vermelden dat APE de paar-shot-prestaties verbeterde bij 21 van de 24 instructie-inductietaken [1].

3. Redeneren en logisch denken: Een opmerkelijk voorbeeld is dat APE een betere algemene 'gedachteketen'-prompt kon ontdekken dan de door mensen ontworpen 'Laten we stap voor stap nadenken'-prompt uit eerder werk. Deze door APE gegenereerde prompt leidde tot verbeterde prestaties op benchmarks voor wiskundig redeneren, zoals MultiArith en GSM8K [1][3].

4. Breedte aan taken: de zoekresultaten geven aan dat door APE gegenereerde aanwijzingen menselijke aanwijzingen konden evenaren of beter presteren bij een breed scala aan taken, waaronder taalbegrip, begrijpend lezen, samenvatten en verschillende redeneringstaken van de BIG -Benchmark [1].

Samenvattend lijkt het belangrijkste voordeel van APE het vermogen te zijn om automatisch aanwijzingen te genereren die effectiever zijn dan door mensen gemaakte aanwijzingen voor een gevarieerde reeks taken en benchmarks, zowel in zero-shot- als in weinig-shot-instellingen. De geautomatiseerde prompt engineering-aanpak lijkt nieuwe mogelijkheden te ontsluiten in grote taalmodellen die verder gaan dan wat kan worden bereikt met handmatig promptontwerp.

Citaties:
[1] https://sites.google.com/view/automatic-prompt-engineer
[2] https://github.com/keirp/automatic_prompt_engineer
[3] https://www.promptingguide.ai/techniques/ape
[4] https://futureskillsacademy.com/blog/automatic-prompt-engineering-ape/
[5] https://blog.gopenai.com/unleashing-the-power-of-ai-to-self-generate-prompts-a-dive-into-the-automatic-prompt-engineer-d87f2db83f56