Come si confronta APE con i suggerimenti ingegnerizzati dall'uomo in termini di prestazioni

In base ai risultati della ricerca, i risultati principali sul confronto tra l'Automatic Prompt Engineering (APE) e i prompt ingegnerizzati dall'uomo sono:

1. Prestazioni Zero-Shot: i risultati della ricerca indicano che i prompt generati da APE possono superare i prompt ingegnerizzati dall'uomo su una varietà di attività in un'impostazione zero-shot. Ad esempio, nel benchmark TruthfulQA, i prompt generati dall'APE hanno ottenuto punteggi più alti su parametri come veridicità e informatività rispetto ai prompt creati dall'uomo [1].

2. Apprendimento in contesto con pochi scatti: è stato anche dimostrato che i prompt generati da APE migliorano le prestazioni di apprendimento in contesto con pochi scatti dei modelli linguistici rispetto ai prompt ingegnerizzati dall'uomo. I risultati della ricerca menzionano che l'APE ha migliorato le prestazioni con pochi colpi in 21 compiti di introduzione all'istruzione su 24 [1].

3. Ragionamento e pensiero logico: un esempio degno di nota è che APE è stata in grado di scoprire un suggerimento generale di "catena di pensiero" migliore rispetto al suggerimento "Pensiamo passo dopo passo" progettato dall'uomo dal lavoro precedente. Questo prompt generato da APE ha portato a prestazioni migliorate sui benchmark di ragionamento matematico come MultiArith e GSM8K [1] [3].

4. Ampia gamma di compiti: i risultati della ricerca indicano che i prompt generati dall'APE erano in grado di eguagliare o superare i prompt umani in un'ampia gamma di compiti, tra cui la comprensione del linguaggio, la comprensione della lettura, il riepilogo e vari compiti di ragionamento del BIG -Benchmark [1].

In sintesi, il vantaggio principale di APE sembra essere la sua capacità di generare automaticamente suggerimenti più efficaci di quelli creati dall’uomo in una serie diversificata di attività e parametri di riferimento, sia in contesti zero-shot che pochi-shot. L’approccio automatizzato dell’ingegneria dei prompt sembra sbloccare nuove funzionalità in modelli linguistici di grandi dimensioni che superano ciò che può essere ottenuto attraverso la progettazione manuale dei prompt.

Citazioni:
[1] https://sites.google.com/view/automatic-prompt-engineer
[2] https://github.com/keirp/automatic_prompt_engineer
[3] https://www.promptingguide.ai/techniques/ape
[4] https://futureskillsacademy.com/blog/automatic-prompt-engineering-ape/
[5] https://blog.gopenai.com/unleashing-the-power-of-ai-to-self-generate-prompts-a-dive-into-the-automatic-prompt-engineer-d87f2db83f56