Comment APE se compare-t-il aux invites créées par l'homme en termes de performances

Sur la base des résultats de la recherche, les principales conclusions sur la façon dont l'ingénierie automatique des invites (APE) se compare aux invites conçues par l'homme sont :

1. Performances Zero-Shot : les résultats de la recherche indiquent que les invites générées par l'APE peuvent surpasser les invites conçues par l'homme sur une variété de tâches dans un environnement Zero-Shot. Par exemple, sur le benchmark TruthfulQA, les invites générées par l'APE ont obtenu des scores plus élevés sur des mesures telles que la véracité et le caractère informatif par rapport aux invites créées par l'homme [1].

2. Apprentissage en contexte en quelques étapes : il a également été démontré que les invites générées par APE améliorent les performances d'apprentissage en contexte en quelques étapes des modèles de langage par rapport aux invites conçues par l'homme. Les résultats de la recherche mentionnent que l'APE a amélioré les performances en quelques tirs sur 21 tâches d'induction d'instruction sur 24 [1].

3. Raisonnement et pensée logique : Un exemple notable est que l'APE a été capable de découvrir une meilleure invite générale de « chaîne de pensée » que l'invite « Pensons étape par étape » conçue par l'homme et issue de travaux antérieurs. Cette invite générée par l'APE a conduit à une amélioration des performances sur les tests de raisonnement mathématique tels que MultiArith et GSM8K [1] [3].

4. Étendue des tâches : les résultats de la recherche indiquent que les invites générées par l'APE étaient capables de correspondre ou de surpasser les invites humaines sur un large éventail de tâches, notamment la compréhension du langage, la compréhension écrite, la synthèse et diverses tâches de raisonnement du BIG. -Bench benchmark [1].

En résumé, le principal avantage de l’APE semble être sa capacité à générer automatiquement des invites plus efficaces que celles créées par l’homme pour un ensemble diversifié de tâches et de tests de référence, à la fois dans des environnements à tir nul et à quelques tirs. L'approche d'ingénierie automatisée des invites semble débloquer de nouvelles fonctionnalités dans les grands modèles de langage qui dépassent ce qui peut être réalisé grâce à la conception manuelle des invites.

Citations :
[1] https://sites.google.com/view/automatic-prompt-engineer
[2] https://github.com/keirp/automatic_prompt_engineer
[3] https://www.promptingguide.ai/techniques/ape
[4] https://futureskillsacademy.com/blog/automatic-prompt-engineering-ape/
[5] https://blog.gopenai.com/unleashing-the-power-of-ai-to-self-generate-prompts-a-dive-into-the-automatic-prompt-engineer-d87f2db83f56