APE (Automatic Prompt Engineering)는 작업 성능을 향상시키기 위해 LLMS (Lange Language Models) 용 자연 언어 지침 (프롬프트)을 자동으로 생성하고 선택하기 위해 개발 된 방법입니다. LLM에 의해 생성 된 교육 후보 풀을 검색하여 특정 작업에 대해 선택한 점수 함수를 최대화하기 위해 명령을 "프로그램"으로 취급합니다. 그런 다음 선택한 명령의 성능은 다른 LLM과 함께 제로 샷 작업에 적용하여 평가됩니다. 이 접근법은 전통적인 프롬프트 엔지니어링과 대조되는데, 여기서 프롬프트는 인간이 수동으로 제작됩니다.
APE는 이전 LLM 기준선 프롬프트를 상당한 마진으로 능가하고 여러 벤치 마크에서 인간 생성 된 지침에 더 나은 성능을 달성하는 것으로 나타났습니다. 예를 들어, 실험은 APE가 정해진 작업에 대한 진실성 및 정보를 포함한 모든 메트릭에 대한 인간 공학적 프롬프트보다 성능이 우수하다는 것을 보여줍니다. 24 개의 명령 유도 작업과 21 개의 큐 레이트 된 큰 벤치 작업 세트에서, Ape 생성 프롬프트는 각각 19 및 17 작업의 인간 프롬프트에 더 좋거나 비교하여 강력한 일반화와 성능 일관성을 나타냅니다.
APE 프로세스에는 초기 입력 출력 예제를 기반으로 다양한 후보 프롬프트 세트를 생성 한 다음 작업에 대한 효과에 따라 이러한 후보자를 점수를 매 깁니다. 여기에는 종종 정확성, 정보 성 또는 진실성에 대한 자동 평가가 포함됩니다. 언어 모델은 이전 성능 피드백을 기반으로 개선 된 프롬프트 버전을 생성함으로써 반복 프로세스에서 추가 정제를 위해 특정 기준 이상의 후보자가 선택됩니다. 이 반복적 인 개선은 Ape가 "단계별로 생각하자"와 같은 표준 인간-엔지니어링 된 프롬프트보다 더 나은 제로 샷 체인 프롬프트를 발견 할 수있게한다.
APE의 자동 접근 방식은 수동 프롬프트 엔지니어링보다 몇 가지 실질적인 이점을 제공합니다.
- 신속한 창출과 관련된 시간과 노동을 크게 줄이고 개발주기의 최대 70% 감소, AI 애플리케이션의 배포 가속화가 가속화합니다.
-AI 응답의 정확도는 철저한 테스트 및 개선으로 인해 수동으로 제작 된 프롬프트보다 35%까지 향상 될 수 있습니다.
- AI 출력의 오류율은 약 45%감소하여 신뢰성이 향상됩니다.
- APE로서 교육 효율성 이점은 모델 학습을 가속화하는 합성 교육 데이터를 생성 할 수 있습니다.
- 다양한 사용 사례에 대한 높은 사용자 정의 및 적응성을 제공하며, 인간의 전문 지식없이 특정 작업에 대한 프롬프트 생성 전략을 자동으로 조정합니다.
- 신속한 품질과 출력의 일관성은 체계적이고 반복 가능한 프롬프트 생성 프로세스에 의해 보장되며, 개별 인간 직관 또는 기술에 대한 의존성을 줄입니다.
APE를 다른 신속한 안내 방법과 비교하면 고유 한 장점이 나타납니다. RAG (Recreval-Augmented Generation)는 검색과 생성을 결합하지만 여전히 수동 프롬프트 엔지니어링에 의존합니다. 미세 조정은 도메인 데이터로 모델 매개 변수를 수정하지만 큰 데이터 세트와 계산 리소스가 필요합니다. 수동 프롬프트 엔지니어링은 유연성을 허용하지만 시간이 많이 걸리고 일관성이 없으며 APE는 프롬프트 생성 및 정제를 자동화하여 확장 성과 프롬프트 엔지니어링의 적응성을 결합합니다.
질적 분석에 따르면 APE 생성 지침은 진실성과 정보의 차원에 따라 전문화되는 경향이 있으며, 전형적인 인간이 공학적 인 프롬프트를 능가하는 파레토 최적 트레이드 오프를 달성합니다. 이는 APE가 정확도를 향상시킬뿐만 아니라 애플리케이션 요구에 맞는 미묘한 출력 특성에도 LLM을 안내 할 수 있음을 시사합니다. 또한 최적화 된 APE 프롬프트를 소수의 학습 설정으로 선정하여 전반적인 학습 성능을 향상시킬 수 있습니다.
장점에도 불구하고 APE는 수동 접근 방식에 비해 몇 가지 제한 사항이 있습니다. 최적화를위한 반복 검색 프로세스는 계산 집중적이며 추가 리소스가 필요할 수 있습니다. 효과적인 성능은 후보 프롬프트를 평가하는 데 사용되는 스코어링 기능의 품질에 크게 의존하며 결과는 작업 도메인이나 모델에 따라 달라질 수 있습니다. 한 모델에 대해 생성 된 명령이 다른 모델에 적용되는 크로스 모델 명령 전송은 제한되어있어 최상의 결과를 위해 작업 별 프롬프트 조정이 필요합니다.
요약하면, APE와 인간 엔지니어링 프롬프트의 주요 성능 차이는 다음과 같습니다.
-APE는 다양한 작업에서 성능을 최적화하기 위해 프롬프트를 체계적으로 생성하고 개선하여 정확성, 진실성 및 정보를 포함한 많은 평가 지표에 대한 더 나은 결과를 초래합니다.
- 인간의 프롬프트는 일관성이 없으며 전문가의 노력이 필요할 수 있습니다. APE는 이러한 프로세스를 자동화하여 시간을 절약하면서 정밀도를 향상시킵니다.
- APE는 수동 재 설계없이 작업에 걸쳐 더 적응할 수 있으며 효율적으로 맞춤 지침.
-트레이드 오프는 계산 비용이 증가하고 작업 별 스코어링 최적화에 대한 잠재적 필요성이 증가하고 있습니다.
-APE는 제로 샷, 소수의 샷 및 사슬의 사슬을 향상시키기위한 실용적인 도구로 입증되었으며, 종종 전통적인 인간 엔지니어링 기준선 프롬프트를 능가합니다.