¿Cómo se compara APE con las indicaciones diseñadas por humanos en términos de rendimiento?

Según los resultados de la búsqueda, los hallazgos clave sobre cómo se compara la ingeniería de avisos automáticos (APE) con los avisos diseñados por humanos son:

1. Rendimiento de disparo cero: los resultados de la búsqueda indican que los avisos generados por APE pueden superar a los avisos diseñados por humanos en una variedad de tareas en una configuración de disparo cero. Por ejemplo, en el punto de referencia TruthfulQA, las indicaciones generadas por APE lograron puntuaciones más altas en métricas como veracidad e informatividad en comparación con las indicaciones creadas por humanos [1].

2. Aprendizaje en contexto de pocas tomas: También se ha demostrado que las indicaciones generadas por APE mejoran el rendimiento del aprendizaje en contexto de pocas tomas de los modelos lingüísticos en comparación con las indicaciones diseñadas por humanos. Los resultados de la búsqueda mencionan que APE mejoró el rendimiento de unos pocos disparos en 21 de 24 tareas de inducción de instrucción [1].

3. Razonamiento y pensamiento lógico: Un ejemplo notable es que APE pudo descubrir un mensaje de "cadena de pensamiento" general mejor que el mensaje "Pensemos paso a paso" diseñado por humanos de trabajos anteriores. Este mensaje generado por APE condujo a un mejor rendimiento en puntos de referencia de razonamiento matemático como MultiArith y GSM8K [1][3].

4. Amplitud de tareas: los resultados de la búsqueda indican que las indicaciones generadas por APE pudieron igualar o superar a las indicaciones humanas en una amplia gama de tareas, incluida la comprensión del lenguaje, la comprensión lectora, el resumen y varias tareas de razonamiento del GRANDE. -Benchmark [1].

En resumen, la ventaja clave de APE parece ser su capacidad para generar automáticamente indicaciones que son más efectivas que las creadas por humanos en un conjunto diverso de tareas y puntos de referencia, tanto en entornos de cero disparos como de pocos disparos. El enfoque de ingeniería de avisos automatizado parece desbloquear nuevas capacidades en modelos de lenguaje grandes que superan lo que se puede lograr mediante el diseño de avisos manual.

Citas:
[1] https://sites.google.com/view/automatic-prompt-engineer
[2] https://github.com/keirp/automatic_prompt_engineer
[3] https://www.promptingguide.ai/techniques/ape
[4] https://futureskillsacademy.com/blog/automatic-prompt-engineering-ape/
[5] https://blog.gopenai.com/unleashing-the-power-of-ai-to-self-generate-prompts-a-dive-into-the-automatic-prompt-engineer-d87f2db83f56