Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Come si confronta APE con i suggerimenti per l'ingegneria umana in termini di prestazioni


Come si confronta APE con i suggerimenti per l'ingegneria umana in termini di prestazioni


L'ingegneria del prompt automatico (APE) è un metodo sviluppato per generare e selezionare automaticamente le istruzioni del linguaggio naturale (istruzioni) per i modelli di linguaggio di grandi dimensioni (LLM) per migliorare le prestazioni delle attività. Tratta l'istruzione come un "programma" da ottimizzare cercando un pool di candidati alle istruzioni generati da un LLM, con l'obiettivo di massimizzare una funzione di punteggio scelto per un'attività specifica. Le prestazioni delle istruzioni selezionate vengono quindi valutate applicandola a attività a scatto zero con un altro LLM. Questo approccio contrasta con l'ingegneria rapida tradizionale, in cui i prompt sono realizzati manualmente dagli umani.

È stato dimostrato che APE supera le prime istruzioni di base LLM con un margine significativo e raggiunge prestazioni migliori o comparabili alle istruzioni generate dall'uomo su più parametri di riferimento. Ad esempio, gli esperimenti dimostrano che APE supera le richieste di ingegneria umana su tutte le metriche, tra cui la verità e l'informatività sui compiti preferenti. In un insieme di 24 attività di induzione delle istruzioni e 21 compiti di panchina curati, le istruzioni generate da scimmie erano migliori o paragonabili alle istruzioni umane rispettivamente in 19 e 17 compiti, indicando una forte generalizzazione e coerenza delle prestazioni.

Il processo di APE prevede la generazione di una serie diversificata di istruzioni candidati basati su esempi di input-output iniziali, seguito dal punteggio di questi candidati in base alla loro efficacia sull'attività. Ciò include spesso una valutazione automatizzata di correttezza, informatività o veridicità. I candidati al di sopra di determinati criteri sono selezionati per un ulteriore perfezionamento in un processo iterativo, con il modello linguistico che genera versioni migliorate di istruzioni basate sul feedback delle prestazioni precedenti. Questo raffinamento iterativo consente in particolare APE di scoprire migliori istruzioni a catena a catena zero rispetto ai suggerimenti standard ingegnerizzati come "pensiamo passo dopo passo".

L'approccio automatico di APE offre diversi vantaggi pratici rispetto all'ingegneria manuale:

- Riduce in modo significativo il tempo e il lavoro coinvolti nella creazione rapida, con segnalazioni fino al 70% di riduzione dei cicli di sviluppo, accelerando la distribuzione delle applicazioni di intelligenza artificiale.
- L'accuratezza delle risposte di intelligenza artificiale può essere migliorata fino al 35% rispetto ai prompt realizzati manualmente a causa di test e perfezionamento approfonditi.
- I tassi di errore nelle uscite di intelligenza artificiale diminuiscono di circa il 45%, migliorando l'affidabilità.
- I vantaggi di efficienza di formazione come APE possono generare dati di formazione sintetica che accelerano l'apprendimento del modello, particolarmente prezioso nei settori specializzati o di scansione dei dati.
- Fornisce un'elevata personalizzazione e adattabilità a diversi casi d'uso, adattando automaticamente strategie di generazione rapida a compiti specifici senza richiedere competenze umane.
- La coerenza nella qualità rapida e nell'output è garantita da processi sistematici e ripetibili di generazione prompt, riducendo la dipendenza dall'intuizione o dall'abilità individuale.

Il confronto di APE con altri metodi di orientamento rapidi illustra i suoi vantaggi unici. La generazione di recupero (RAG) combina il recupero e la generazione, ma si basa comunque sull'ingegneria manuale rapida. La messa a punto modifica i parametri del modello con i dati del dominio ma richiedono set di dati e risorse computazionali di grandi dimensioni. L'ingegneria prompt manuale consente la flessibilità ma richiede tempo e incoerente, mentre APE automatizza la creazione e il raffinamento rapidi, combinando la scalabilità con l'adattabilità dell'ingegneria rapida.

Le analisi qualitative mostrano che le istruzioni generate da scimmie tendono a specializzarsi lungo le dimensioni della veridicità e dell'informatività, raggiungendo compromessi pareto-ottimali che superano i tipici suggerimenti ingegnerizzati dall'uomo. Ciò suggerisce che APE può guidare LLM non solo a una migliore precisione, ma anche verso caratteristiche di uscita sfumate su misura per le esigenze dell'applicazione. Può anche preparare i suggerimenti delle scimmie ottimizzate a configurazioni di apprendimento a pochi colpi, migliorando le prestazioni di apprendimento complessive.

Nonostante i suoi vantaggi, APE ha alcune limitazioni rispetto agli approcci manuali. Il processo di ricerca iterativo per l'ottimizzazione può essere intensiva computazionale e richiedere risorse aggiuntive. Le prestazioni efficaci dipendono fortemente dalla qualità della funzione di punteggio utilizzata per valutare i prompt dei candidati e i risultati possono variare con diversi domini o modelli di attività. Il trasferimento di istruzioni incrociati, in cui le istruzioni generate per un modello vengono applicate a un altro, è limitata, che richiede una messa a punto specifica delle attività specifiche delle attività per i migliori risultati.

In sintesi, le principali differenze di prestazione tra APE e istruzioni ingegnerizzate dall'uomo sono:

- APE genera sistematicamente e perfeziona i suggerimenti di ottimizzare le prestazioni su compiti diversi, portando a risultati migliori o comparabili su molte metriche di valutazione tra cui accuratezza, verità e informatività.
- I suggerimenti umani possono essere incoerenti e richiedono uno sforzo di esperti; APE automatizza questi processi, risparmiando tempo migliorando la precisione.
- APE è più adattabile tra i compiti senza riprogettazione manuale, adattando in modo efficiente le istruzioni.
-Il compromesso ha un aumento dei costi computazionali e la potenziale necessità di ottimizzazione del punteggio specifica delle attività.
-APE è stato dimostrato come uno strumento pratico per migliorare i paradigmi di spinta a scatto a zero, a pochi colpi e alla catena del pensiero, superando spesso le tradizionali istruzioni di base dell'uomo ingegnerizzate.

Pertanto, APE rappresenta un progresso significativo nell'ingegneria rapida, fornendo una generazione prompt automatizzata, scalabile e più performante che rivaleggia o supera le competenze umane in una vasta gamma di attività linguistiche. Il suo sviluppo indica una tendenza verso un design di interazione più autonomo e ottimizzato per modelli di grandi dimensioni.