Como o APE se compara aos prompts de engenharia humana em termos de desempenho

Com base nos resultados da pesquisa, as principais descobertas sobre como a Engenharia Automática de Prompts (APE) se compara aos prompts de engenharia humana são:

1. Desempenho Zero-Shot: Os resultados da pesquisa indicam que os prompts gerados pelo APE podem superar os prompts projetados por humanos em uma variedade de tarefas em uma configuração zero-shot. Por exemplo, no benchmark TruthfulQA, os prompts gerados pelo APE alcançaram pontuações mais altas em métricas como veracidade e informatividade em comparação com os prompts criados por humanos [1].

2. Aprendizagem no contexto de poucas tentativas: Os prompts gerados pelo APE também demonstraram melhorar o desempenho de aprendizagem no contexto de poucos disparos de modelos de linguagem em comparação com os prompts projetados por humanos. Os resultados da pesquisa mencionam que o APE melhorou o desempenho de poucas tentativas em 21 das 24 tarefas de indução de instrução [1].

3. Raciocínio e pensamento lógico: Um exemplo notável é que a APE foi capaz de descobrir um prompt geral de "cadeia de pensamento" melhor do que o prompt de engenharia humana "Vamos pensar passo a passo" de trabalhos anteriores. Este prompt gerado pelo APE levou a um melhor desempenho em benchmarks de raciocínio matemático como MultiArith e GSM8K [1][3].

4. Amplitude de tarefas: Os resultados da pesquisa indicam que os prompts gerados pelo APE foram capazes de corresponder ou superar os prompts humanos em uma ampla gama de tarefas, incluindo compreensão de linguagem, compreensão de leitura, resumo e várias tarefas de raciocínio do BIG -Benchmark [1].

Em resumo, a principal vantagem do APE parece ser a sua capacidade de gerar automaticamente prompts que são mais eficazes do que os criados por humanos em um conjunto diversificado de tarefas e benchmarks, tanto em configurações de disparo zero como de poucos disparos. A abordagem de engenharia automatizada de prompts parece desbloquear novos recursos em grandes modelos de linguagem que superam o que pode ser alcançado por meio do design manual de prompts.

Citações:
[1] https://sites.google.com/view/automatic-prompt-engineer
[2] https://github.com/keirp/automatic_prompt_engineer
[3] https://www.promptingguide.ai/techniques/ape
[4] https://futureskillsacademy.com/blog/automatic-prompt-engineering-ape/
[5] https://blog.gopenai.com/unleashing-the-power-of-ai-to-self-generate-prompts-a-dive-into-the-automatic-prompt-engineer-d87f2db83f56