Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Como o APE se compara aos avisos de engenharia humana em termos de desempenho


Como o APE se compara aos avisos de engenharia humana em termos de desempenho


A Automatic Prompit Engineering (APE) é um método desenvolvido para gerar e selecionar automaticamente instruções de linguagem natural (instruções) para grandes modelos de idiomas (LLMS) para melhorar o desempenho da tarefa. Ele trata a instrução como um "programa" a ser otimizado pesquisando um pool de candidatos a instruções geradas por um LLM, com o objetivo de maximizar uma função de pontuação escolhida para uma tarefa específica. O desempenho da instrução selecionado é então avaliado aplicando-o a tarefas zero com outro LLM. Essa abordagem contrasta com a engenharia imediata tradicional, onde os avisos são elaborados manualmente pelos seres humanos.

Demonstrou-se que o APE supera os avisos de linha de base do LLM anterior por uma margem significativa e alcançam um desempenho melhor ou comparável às instruções geradas pelo ser humano em vários benchmarks. Por exemplo, os experimentos demonstram que o APE supera as instruções de engenharia de humanos em todas as métricas, incluindo veracidade e informatividade nas tarefas definidas. Em um conjunto de 24 tarefas de indução de instruções e 21 tarefas com curadoria de grande porte, os avisos gerados por MAPE foram melhores ou comparáveis ​​aos avisos humanos em 19 e 17 tarefas, respectivamente, indicando forte generalização e consistência de desempenho.

O processo de APE envolve a geração de um conjunto diversificado de avisos de candidatos com base nos exemplos iniciais de entrada e saída, seguidos pela pontuação desses candidatos de acordo com sua eficácia na tarefa. Isso geralmente inclui avaliação automatizada da correção, informatividade ou veracidade. Os candidatos acima de certos critérios são selecionados para refinamento adicional em um processo iterativo, com o modelo de idioma gerando versões aprimoradas de instruções com base no feedback anterior de desempenho. Esse refinamento iterativo permite que o APE descubra melhores instruções de cadeia de pensamento zero do que os avisos de engenharia humana padrão como "Vamos pensar passo a passo".

A abordagem automática do APE oferece vários benefícios práticos sobre a engenharia imediata manual:

- reduz significativamente o tempo e o trabalho envolvidos na criação imediata, com relatos de redução de até 70% nos ciclos de desenvolvimento, acelerando a implantação de aplicativos de IA.
- A precisão das respostas da IA ​​pode ser melhorada em até 35% em relação aos avisos criados manualmente devido a testes e refinamentos completos.
- As taxas de erro nas saídas de IA diminuem em aproximadamente 45%, aumentando a confiabilidade.
- Os benefícios da eficiência do treinamento, pois o APE pode gerar dados de treinamento sintético que aceleram o aprendizado de modelos, especialmente valiosos em domínios especializados ou de escarpa de dados.
- fornece alta personalização e adaptabilidade a diversos casos de uso, adaptando automaticamente estratégias de geração imediata a tarefas específicas sem exigir conhecimento humano.
- A consistência na qualidade e saída imediata é garantida por processos sistemáticos e repetíveis de geração de geração, reduzindo a dependência da intuição ou habilidade individual.

Comparar o APE com outros métodos de orientação imediata ilustra suas vantagens únicas. A geração de recuperação de recuperação (RAG) combina recuperação e geração, mas ainda depende da engenharia imediata manual. O ajuste fino modifica os parâmetros do modelo com dados de domínio, mas requer grandes conjuntos de dados e recursos computacionais. A engenharia imediata manual permite flexibilidade, mas é demorada e inconsistente, enquanto o APE automatiza a criação e o refinamento imediatos, combinando escalabilidade com a adaptabilidade pronta de engenharia.

Análises qualitativas mostram que as instruções geradas por macacos tendem a se especializar ao longo das dimensões da veracidade e da informatividade, alcançando trocas ideais que superam as instruções típicas de engenharia humana. Isso sugere que o APE pode orientar os LLMs não apenas para melhorar a precisão, mas também para as características de saída diferenciadas adaptadas às necessidades de aplicação. Ele também pode prender os avisos de macacos otimizados a configurações de aprendizado de poucas fotos, aprimorando o desempenho geral do aprendizado.

Apesar de suas vantagens, o APE tem algumas limitações em comparação com as abordagens manuais. O processo de pesquisa iterativo para otimização pode ser intensivo computacionalmente e requer recursos adicionais. O desempenho efetivo depende muito da qualidade da função de pontuação usada para avaliar os prompts candidatos, e os resultados podem variar com diferentes domínios ou modelos de tarefas. A transferência de instruções entre modelos, onde as instruções geradas para um modelo são aplicadas a outro, são limitadas, necessitando de ajuste específico da tarefa de prompts para obter melhores resultados.

Em resumo, as principais diferenças de desempenho entre os macacos e os avisos de engenharia humana são:

- O APE gera sistematicamente e refina os avisos para otimizar o desempenho em diversas tarefas, levando a resultados melhores ou comparáveis ​​em muitas métricas de avaliação, incluindo precisão, veracidade e informatividade.
- Os avisos humanos podem ser inconsistentes e exigir um esforço especializado; O APE automatiza esses processos, economizando tempo enquanto melhora a precisão.
- O APE é mais adaptável entre as tarefas sem redesenho manual, de adaptação com eficiência.
-O trade-off está em aumento do custo computacional e potencial necessidade de otimização de pontuação específica da tarefa.
-O APE foi demonstrado como uma ferramenta prática para aprimorar os paradigmas de tiro zero, poucos e acentuados, superando frequentemente suportes de linha de base tradicionais de engenharia humana.

Assim, o APE representa um avanço significativo na engenharia imediata, fornecendo geração imediata automatizada, escalável e de maior desempenho que rivaliza ou excede os conhecimentos humanos em uma ampla gama de tarefas de linguagem. Seu desenvolvimento indica uma tendência para um design de interação mais autônomo e otimizado para grandes modelos de linguagem.