Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 성능 측면에서 APE는 인간이 설계한 프롬프트와 어떻게 비교됩니까?


성능 측면에서 APE는 인간이 설계한 프롬프트와 어떻게 비교됩니까?


검색 결과를 바탕으로 자동 프롬프트 엔지니어링(APE)을 인간 공학 프롬프트와 비교하는 방법에 대한 주요 결과는 다음과 같습니다.

1. 제로샷 성능: 검색 결과는 APE가 생성한 프롬프트가 제로샷 설정의 다양한 작업에서 인간이 만든 프롬프트보다 성능이 뛰어날 수 있음을 나타냅니다. 예를 들어, TruthfulQA 벤치마크에서 APE가 생성한 프롬프트는 인간이 만든 프롬프트에 비해 진실성, 정보성 등의 지표에서 더 높은 점수를 얻었습니다[1].

2. Few-Shot In-Context Learning: APE 생성 프롬프트는 인간이 만든 프롬프트에 비해 언어 모델의 Few-Shot In-Context 학습 성능을 향상시키는 것으로 나타났습니다. 검색 결과에 따르면 APE는 24개의 명령어 유도 작업 중 21개에서 퓨샷 성능을 향상시켰습니다[1].

3. 추론 및 논리적 사고: 한 가지 주목할 만한 예는 APE가 이전 작업에서 인간이 설계한 "단계적으로 생각해보자" 프롬프트보다 더 나은 일반적인 "사고 연쇄" 프롬프트를 발견할 수 있었다는 것입니다. 이 APE 생성 프롬프트는 MultiArith 및 GSM8K[1][3]와 같은 수학 추론 벤치마크의 성능을 향상시켰습니다.

4. 작업의 폭: 검색 결과는 APE에서 생성된 프롬프트가 언어 이해, 독해, 요약 및 BIG의 다양한 추론 작업을 포함한 광범위한 작업에서 인간 프롬프트와 일치하거나 능가할 수 있음을 나타냅니다. -벤치 벤치마크 [1].

요약하자면, APE의 주요 장점은 제로샷 및 퓨샷 설정 모두에서 다양한 작업 및 벤치마크 세트에 걸쳐 사람이 만든 것보다 더 효과적인 프롬프트를 자동으로 생성하는 능력인 것 같습니다. 자동화된 프롬프트 엔지니어링 접근 방식은 수동 프롬프트 디자인을 통해 달성할 수 있는 것보다 더 큰 언어 모델의 새로운 기능을 잠금 해제하는 것으로 보입니다.

인용:
[1] https://sites.google.com/view/automatic-prompt-engineer
[2] https://github.com/keirp/automatic_prompt_engineer
[3] https://www.promptingguide.ai/techniques/ape
[4] https://futureskillsacademy.com/blog/automatic-prompt-engineering-ape/
[5] https://blog.gopenai.com/unleashing-the-power-of-ai-to-self-generate-prompts-a-dive-into-the-automatic-prompt-engineer-d87f2db83f56