성능 측면에서 APE는 인간이 설계한 프롬프트와 어떻게 비교됩니까?

검색 결과를 바탕으로 자동 프롬프트 엔지니어링(APE)을 인간 공학 프롬프트와 비교하는 방법에 대한 주요 결과는 다음과 같습니다.

1. 제로샷 성능: 검색 결과는 APE가 생성한 프롬프트가 제로샷 설정의 다양한 작업에서 인간이 만든 프롬프트보다 성능이 뛰어날 수 있음을 나타냅니다. 예를 들어, TruthfulQA 벤치마크에서 APE가 생성한 프롬프트는 인간이 만든 프롬프트에 비해 진실성, 정보성 등의 지표에서 더 높은 점수를 얻었습니다[1].

2. Few-Shot In-Context Learning: APE 생성 프롬프트는 인간이 만든 프롬프트에 비해 언어 모델의 Few-Shot In-Context 학습 성능을 향상시키는 것으로 나타났습니다. 검색 결과에 따르면 APE는 24개의 명령어 유도 작업 중 21개에서 퓨샷 성능을 향상시켰습니다[1].

3. 추론 및 논리적 사고: 한 가지 주목할 만한 예는 APE가 이전 작업에서 인간이 설계한 "단계적으로 생각해보자" 프롬프트보다 더 나은 일반적인 "사고 연쇄" 프롬프트를 발견할 수 있었다는 것입니다. 이 APE 생성 프롬프트는 MultiArith 및 GSM8K[1][3]와 같은 수학 추론 벤치마크의 성능을 향상시켰습니다.

4. 작업의 폭: 검색 결과는 APE에서 생성된 프롬프트가 언어 이해, 독해, 요약 및 BIG의 다양한 추론 작업을 포함한 광범위한 작업에서 인간 프롬프트와 일치하거나 능가할 수 있음을 나타냅니다. -벤치 벤치마크 [1].

요약하자면, APE의 주요 장점은 제로샷 및 퓨샷 설정 모두에서 다양한 작업 및 벤치마크 세트에 걸쳐 사람이 만든 것보다 더 효과적인 프롬프트를 자동으로 생성하는 능력인 것 같습니다. 자동화된 프롬프트 엔지니어링 접근 방식은 수동 프롬프트 디자인을 통해 달성할 수 있는 것보다 더 큰 언어 모델의 새로운 기능을 잠금 해제하는 것으로 보입니다.

인용:
[1] https://sites.google.com/view/automatic-prompt-engineer
[2] https://github.com/keirp/automatic_prompt_engineer
[3] https://www.promptingguide.ai/techniques/ape
[4] https://futureskillsacademy.com/blog/automatic-prompt-engineering-ape/
[5] https://blog.gopenai.com/unleashing-the-power-of-ai-to-self-generate-prompts-a-dive-into-the-automatic-prompt-engineer-d87f2db83f56