Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon APE는 성능 측면에서 인간 공학적 프롬프트와 어떻게 비교됩니까?


APE는 성능 측면에서 인간 공학적 프롬프트와 어떻게 비교됩니까?


APE (Automatic Prompt Engineering)는 작업 성능을 향상시키기 위해 LLMS (Lange Language Models) 용 자연 언어 지침 (프롬프트)을 자동으로 생성하고 선택하기 위해 개발 된 방법입니다. LLM에 의해 생성 된 교육 후보 풀을 검색하여 특정 작업에 대해 선택한 점수 함수를 최대화하기 위해 명령을 "프로그램"으로 취급합니다. 그런 다음 선택한 명령의 성능은 다른 LLM과 함께 제로 샷 작업에 적용하여 평가됩니다. 이 접근법은 전통적인 프롬프트 엔지니어링과 대조되는데, 여기서 프롬프트는 인간이 수동으로 제작됩니다.

APE는 이전 LLM 기준선 프롬프트를 상당한 마진으로 능가하고 여러 벤치 마크에서 인간 생성 된 지침에 더 나은 성능을 달성하는 것으로 나타났습니다. 예를 들어, 실험은 APE가 정해진 작업에 대한 진실성 및 정보를 포함한 모든 메트릭에 대한 인간 공학적 프롬프트보다 성능이 우수하다는 것을 보여줍니다. 24 개의 명령 유도 작업과 21 개의 큐 레이트 된 큰 벤치 작업 세트에서, Ape 생성 프롬프트는 각각 19 및 17 작업의 인간 프롬프트에 더 좋거나 비교하여 강력한 일반화와 성능 일관성을 나타냅니다.

APE 프로세스에는 초기 입력 출력 예제를 기반으로 다양한 후보 프롬프트 세트를 생성 한 다음 작업에 대한 효과에 따라 이러한 후보자를 점수를 매 깁니다. 여기에는 종종 정확성, 정보 성 또는 진실성에 대한 자동 평가가 포함됩니다. 언어 모델은 이전 성능 피드백을 기반으로 개선 된 프롬프트 버전을 생성함으로써 반복 프로세스에서 추가 정제를 위해 특정 기준 이상의 후보자가 선택됩니다. 이 반복적 인 개선은 Ape가 "단계별로 생각하자"와 같은 표준 인간-엔지니어링 된 프롬프트보다 더 나은 제로 샷 체인 프롬프트를 발견 할 수있게한다.

APE의 자동 접근 방식은 수동 프롬프트 엔지니어링보다 몇 가지 실질적인 이점을 제공합니다.

- 신속한 창출과 관련된 시간과 노동을 크게 줄이고 개발주기의 최대 70% 감소, AI 애플리케이션의 배포 가속화가 가속화합니다.
-AI 응답의 정확도는 철저한 테스트 및 개선으로 인해 수동으로 제작 된 프롬프트보다 35%까지 향상 될 수 있습니다.
- AI 출력의 오류율은 약 45%감소하여 신뢰성이 향상됩니다.
- APE로서 교육 효율성 이점은 모델 학습을 가속화하는 합성 교육 데이터를 생성 할 수 있습니다.
- 다양한 사용 사례에 대한 높은 사용자 정의 및 적응성을 제공하며, 인간의 전문 지식없이 특정 작업에 대한 프롬프트 생성 전략을 자동으로 조정합니다.
- 신속한 품질과 출력의 일관성은 체계적이고 반복 가능한 프롬프트 생성 프로세스에 의해 보장되며, 개별 인간 직관 또는 기술에 대한 의존성을 줄입니다.

APE를 다른 신속한 안내 방법과 비교하면 고유 한 장점이 나타납니다. RAG (Recreval-Augmented Generation)는 검색과 생성을 결합하지만 여전히 수동 프롬프트 엔지니어링에 의존합니다. 미세 조정은 도메인 데이터로 모델 매개 변수를 수정하지만 큰 데이터 세트와 계산 리소스가 필요합니다. 수동 프롬프트 엔지니어링은 유연성을 허용하지만 시간이 많이 걸리고 일관성이 없으며 APE는 프롬프트 생성 및 정제를 자동화하여 확장 성과 프롬프트 엔지니어링의 적응성을 결합합니다.

질적 분석에 따르면 APE 생성 지침은 진실성과 정보의 차원에 따라 전문화되는 경향이 있으며, 전형적인 인간이 공학적 인 프롬프트를 능가하는 파레토 최적 트레이드 오프를 달성합니다. 이는 APE가 정확도를 향상시킬뿐만 아니라 애플리케이션 요구에 맞는 미묘한 출력 특성에도 LLM을 안내 할 수 있음을 시사합니다. 또한 최적화 된 APE 프롬프트를 소수의 학습 설정으로 선정하여 전반적인 학습 성능을 향상시킬 수 있습니다.

장점에도 불구하고 APE는 수동 접근 방식에 비해 몇 가지 제한 사항이 있습니다. 최적화를위한 반복 검색 프로세스는 계산 집중적이며 추가 리소스가 필요할 수 있습니다. 효과적인 성능은 후보 프롬프트를 평가하는 데 사용되는 스코어링 기능의 품질에 크게 의존하며 결과는 작업 도메인이나 모델에 따라 달라질 수 있습니다. 한 모델에 대해 생성 된 명령이 다른 모델에 적용되는 크로스 모델 명령 전송은 제한되어있어 최상의 결과를 위해 작업 별 프롬프트 조정이 필요합니다.

요약하면, APE와 인간 엔지니어링 프롬프트의 주요 성능 차이는 다음과 같습니다.

-APE는 다양한 작업에서 성능을 최적화하기 위해 프롬프트를 체계적으로 생성하고 개선하여 정확성, 진실성 및 정보를 포함한 많은 평가 지표에 대한 더 나은 결과를 초래합니다.
- 인간의 프롬프트는 일관성이 없으며 전문가의 노력이 필요할 수 있습니다. APE는 이러한 프로세스를 자동화하여 시간을 절약하면서 정밀도를 향상시킵니다.
- APE는 수동 재 설계없이 작업에 걸쳐 더 적응할 수 있으며 효율적으로 맞춤 지침.
-트레이드 오프는 계산 비용이 증가하고 작업 별 스코어링 최적화에 대한 잠재적 필요성이 증가하고 있습니다.
-APE는 제로 샷, 소수의 샷 및 사슬의 사슬을 향상시키기위한 실용적인 도구로 입증되었으며, 종종 전통적인 인간 엔지니어링 기준선 프롬프트를 능가합니다.

따라서 APE는 신속한 엔지니어링의 상당한 발전을 나타내며, 광범위한 언어 작업에 걸쳐 라이벌 또는 인간의 전문 지식을 초과하는 자동화되고 확장 가능하며 고성능 프롬프트 생성을 제공합니다. 그것의 개발은 대형 언어 모델에 대한보다 자율적이고 최적화 된 상호 작용 설계에 대한 경향을 나타냅니다.