La ingeniería automática de aviso (APE) es un método desarrollado para generar y seleccionar automáticamente las instrucciones de lenguaje natural (indicaciones) para modelos de idiomas grandes (LLM) para mejorar el rendimiento de la tarea. Trata la instrucción como un "programa" para ser optimizado buscando sobre un grupo de candidatos de instrucción generados por un LLM, con el objetivo de maximizar una función de puntaje elegida para una tarea específica. El rendimiento de la instrucción seleccionada se evalúa aplicándola a tareas de disparo cero con otra LLM. Este enfoque contrasta con la ingeniería rápida tradicional, donde los humanos elaboran manualmente las indicaciones.
Se ha demostrado que APE supera las indicaciones de referencia de LLM por un margen significativo y logra un rendimiento mejor o comparable a las instrucciones generadas por los humanos en múltiples puntos de referencia. Por ejemplo, los experimentos demuestran que APE supera a los indicios de ingeniería humana sobre todas las métricas, incluidas la veracidad e información sobre las tareas establecidas. En un conjunto de 24 tareas de inducción de instrucciones y 21 tareas curadas de Big Bench, las indicaciones generadas por APE fueron mejores o comparables a las indicaciones humanas en 19 y 17 tareas respectivamente, lo que indica una fuerte generalización y consistencia del rendimiento.
El proceso de APE implica generar un conjunto diverso de indicaciones candidatas basadas en ejemplos iniciales de entrada-salida, seguido de la puntuación de estos candidatos de acuerdo con su efectividad en la tarea. Esto a menudo incluye una evaluación automatizada de la corrección, la informatividad o la veracidad. Los candidatos por encima de ciertos criterios se seleccionan para un refinamiento adicional en un proceso iterativo, con el modelo de lenguaje que genera versiones mejoradas de indicaciones basadas en la retroalimentación de rendimiento anterior. Este refinamiento iterativo permite que APE descubra mejores indicaciones de cadena de pensamiento de cero disparos que las indicaciones estándar de ingeniería humana como "Pensemos paso a paso".
El enfoque automático de APE ofrece varios beneficios prácticos sobre la ingeniería rápida manual:
- Reduce significativamente el tiempo y la mano de obra involucrados en la creación rápida, con informes de hasta el 70% de reducción en los ciclos de desarrollo, acelerando el despliegue de aplicaciones de IA.
- La precisión de las respuestas de IA puede mejorarse hasta un 35% sobre las indicaciones manualmente elaboradas debido a pruebas y refinamientos exhaustivos.
- Las tasas de error en las salidas de IA disminuyen en aproximadamente un 45%, lo que mejora la confiabilidad.
- Los beneficios de eficiencia de capacitación como APE pueden generar datos de capacitación sintética que aceleran el aprendizaje del modelo, especialmente valioso en dominios especializados o de escasez de datos.
- Proporciona una alta personalización y adaptabilidad a diversos casos de uso, adaptando automáticamente las estrategias de generación de aviso a tareas específicas sin requerir experiencia humana.
- La consistencia en la calidad y la salida rápida se garantiza mediante procesos de generación de inmediato sistemáticos y repetibles, reduciendo la dependencia de la intuición o habilidad humana individual.
Comparar APE con otros métodos de orientación inmediata ilustra sus ventajas únicas. La generación de recuperación y una generación (RAG) combina recuperación y generación, pero aún depende de ingeniería rápida manual. El ajuste fino modifica los parámetros del modelo con datos de dominio, pero requiere grandes conjuntos de datos y recursos computacionales. La ingeniería rápida manual permite flexibilidad, pero lleva mucho tiempo e inconsistente, mientras que APE automatiza la creación y el refinamiento rápido, combinando la escalabilidad con la adaptabilidad rápida de la ingeniería.
Los análisis cualitativos muestran que las instrucciones generadas por APE tienden a especializarse a lo largo de las dimensiones de la veracidad e informatividad, logrando compensaciones de Pareto-Optimal que superan las indicaciones típicas de ingeniería humana. Esto sugiere que APE puede guiar a los LLM no solo a una precisión mejorada sino también a las características de salida matizadas adaptadas a las necesidades de aplicación. También puede prepender las indicaciones de APE optimizadas a las configuraciones de aprendizaje de pocos disparos, mejorando el rendimiento general del aprendizaje.
A pesar de sus ventajas, APE tiene algunas limitaciones en comparación con los enfoques manuales. El proceso de búsqueda iterativo para la optimización puede ser computacionalmente intensivo y requerir recursos adicionales. El rendimiento efectivo depende en gran medida de la calidad de la función de puntuación utilizada para evaluar las indicaciones candidatas, y los resultados pueden variar con diferentes dominios o modelos de tareas. La transferencia de instrucciones del modelo cruzado, donde las instrucciones generadas para un modelo se aplican a otro, es limitada, lo que requiere un ajuste de indicaciones específicos de la tarea para obtener los mejores resultados.
En resumen, las diferencias clave de rendimiento entre APE y las indicaciones de ingeniería humana son:
- APE genera sistemáticamente y refina las indicaciones para optimizar el rendimiento en diversas tareas, lo que lleva a resultados mejores o comparables en muchas métricas de evaluación, incluida la precisión, la veracidad y la información.
- Las indicaciones humanas pueden ser inconsistentes y requerir un esfuerzo experto; APE automatiza estos procesos, ahorrando tiempo mientras mejora la precisión.
- APE es más adaptable en todas las tareas sin rediseño manual, adaptando eficientemente las instrucciones.
-La compensación está en un mayor costo computacional y una posible necesidad de optimización de puntuación específica de tareas.
-APE se ha demostrado como una herramienta práctica para mejorar los paradigmas de incrustación de cadena de huella y cadena de pensamiento, a menudo superando las indicaciones de referencia tradicionales de ingeniería humana.