Wie schneidet APE hinsichtlich der Leistung im Vergleich zu von Menschen erstellten Eingabeaufforderungen ab?

Basierend auf den Suchergebnissen sind die wichtigsten Erkenntnisse zum Vergleich von Automatic Prompt Engineering (APE) mit von Menschen erstellten Eingabeaufforderungen:

1. Zero-Shot-Leistung: Die Suchergebnisse zeigen, dass APE-generierte Eingabeaufforderungen in einer Zero-Shot-Umgebung bei einer Vielzahl von Aufgaben von Menschen erstellte Eingabeaufforderungen übertreffen können. Beispielsweise erzielten die von APE generierten Eingabeaufforderungen beim TruthfulQA-Benchmark im Vergleich zu den von Menschen erstellten Eingabeaufforderungen höhere Werte bei Kennzahlen wie Wahrhaftigkeit und Informationsgehalt [1].

2. Few-Shot-In-Context-Lernen: Es hat sich auch gezeigt, dass APE-generierte Eingabeaufforderungen die Leistung von Sprachmodellen beim Few-Shot-In-Kontext-Lernen im Vergleich zu von Menschen erstellten Eingabeaufforderungen verbessern. In den Suchergebnissen wird erwähnt, dass APE die Leistung bei wenigen Schüssen bei 21 von 24 Aufgaben zur Einführung von Anweisungen verbessert hat [1].

3. Argumentation und logisches Denken: Ein bemerkenswertes Beispiel ist, dass APE eine bessere allgemeine „Gedankenkette“-Eingabeaufforderung entdecken konnte als die von Menschen entwickelte Eingabeaufforderung „Lass uns Schritt für Schritt denken“ aus früheren Arbeiten. Diese APE-generierte Eingabeaufforderung führte zu einer verbesserten Leistung bei Benchmarks für mathematisches Denken wie MultiArith und GSM8K [1][3].

4. Breite der Aufgaben: Die Suchergebnisse deuten darauf hin, dass APE-generierte Eingabeaufforderungen bei einer Vielzahl von Aufgaben mit menschlichen Eingabeaufforderungen mithalten oder diese übertreffen konnten, darunter Sprachverständnis, Leseverständnis, Zusammenfassung und verschiedene Argumentationsaufgaben aus dem BIG -Benchmark [1].

Zusammenfassend scheint der Hauptvorteil von APE in seiner Fähigkeit zu liegen, automatisch Eingabeaufforderungen zu generieren, die für eine Vielzahl von Aufgaben und Benchmarks effektiver sind als von Menschen erstellte Eingabeaufforderungen, sowohl in Zero-Shot- als auch in Wenig-Shot-Einstellungen. Der automatisierte Prompt-Engineering-Ansatz scheint neue Möglichkeiten in großen Sprachmodellen zu erschließen, die über das hinausgehen, was durch manuelles Prompt-Design erreicht werden kann.

Zitate:
[1] https://sites.google.com/view/automatic-prompt-engineer
[2] https://github.com/keirp/automatic_prompt_engineer
[3] https://www.promptingguide.ai/techniques/ape
[4] https://futureskillsacademy.com/blog/automatic-prompt-engineering-ape/
[5] https://blog.gopenai.com/unleashing-the-power-of-ai-to-self-generate-prompts-a-dive-into-the-automatic-prompt-engineer-d87f2db83f56