自動プロンプトエンジニアリング(APE)は、タスクのパフォーマンスを改善するために、大規模な言語モデル(LLMS)の自然言語命令(プロンプト)を自動的に生成および選択する方法です。これは、特定のタスクの選択されたスコア関数を最大化することを目的とした、LLMによって生成された命令候補のプールを検索することにより、「プログラム」として最適化される「プログラム」として扱います。選択した命令のパフォーマンスは、別のLLMでゼロショットタスクに適用することにより評価されます。このアプローチは、プロンプトが人間によって手動で作られている従来の迅速なエンジニアリングとは対照的です。
APEは、以前のLLMベースラインプロンプトを大幅に上回り、複数のベンチマークにわたって人間が生成した命令に対してより良いパフォーマンスまたは同等のパフォーマンスを達成することが示されています。たとえば、実験では、APEがセットタスクの真実性や情報性を含むすべてのメトリックのヒューマンエンジニアリングプロンプトよりも優れていることが示されています。 24の命令誘導タスクと21のキュレーションされたビッグベンチタスクのセットでは、類人猿が生成されたプロンプトは、それぞれ19および17のタスクで人間のプロンプトにより優れているか、または同等であり、強力な一般化とパフォーマンスの一貫性を示しています。
APEのプロセスには、初期入出力の例に基づいて多様な候補プロンプトのセットを生成し、その後、タスクに対する有効性に応じてこれらの候補者を採点します。これには、多くの場合、正確性、情報性、または真実性の自動評価が含まれます。特定の基準を超える候補者は、反復プロセスでさらに改良されて選択され、言語モデルは以前のパフォーマンスフィードバックに基づいてプロンプトの改善されたバージョンを生成します。この反復改良により、類人猿は、「ステップごとに考えよう」などの標準的な人間工学プロンプトよりも、より良いゼロショットチェーンオブ考えプロンプトを発見することができます。
APEの自動アプローチは、手動の迅速なエンジニアリングよりもいくつかの実用的な利点をもたらします。
- 迅速な作成に関与する時間と労働が大幅に短縮され、開発サイクルが最大70%減少し、AIアプリケーションの展開が加速されます。
- AI応答の精度は、徹底的なテストと改良により、手動で作成されたプロンプトよりも35%も改善できます。
-AI出力のエラー率は約45%減少し、信頼性が向上します。
- APEとしてのトレーニング効率の利点は、モデル学習を加速する合成トレーニングデータを生成することができます。特に、専門化またはデータスカースドメインで価値があります。
- 多様なユースケースに高いカスタマイズと適応性を提供し、人間の専門知識を必要とせずに特定のタスクに迅速な生成戦略を自動的に調整します。
- 迅速な品質と出力の一貫性は、体系的かつ繰り返し可能な迅速な生成プロセスによって確保され、個々の人間の直感やスキルへの依存を減らします。
類人猿と他の迅速なガイダンス方法を比較することは、そのユニークな利点を示しています。検索された生成(RAG)は、検索と生成を組み合わせていますが、それでも手動迅速なエンジニアリングに依存しています。微調整は、ドメインデータを使用してモデルパラメーターを変更しますが、大きなデータセットと計算リソースが必要です。手動の迅速なエンジニアリングにより柔軟性が可能になりますが、時間がかかり、一貫性がありませんが、APEは迅速な作成と改良性を自動化し、スケーラビリティとプロンプトエンジニアリングの適応性を組み合わせています。
定性分析は、類人猿が生成された指示が真実性と情報性の次元に沿って専門化する傾向があり、典型的な人間工学プロンプトを上回るパレット最適なトレードオフを達成する傾向があることを示しています。これは、APEがLLMを精度を向上させるだけでなく、アプリケーションのニーズに合わせた微妙な出力特性に向けてもたらすことを示唆しています。また、最適化されたAPEプロンプトを少数のショット学習セットアップにプレイすることもでき、全体的な学習パフォーマンスを向上させることができます。
その利点にもかかわらず、APEには手動アプローチと比較していくつかの制限があります。最適化のための反復検索プロセスは、計算的に集中的であり、追加のリソースが必要です。効果的なパフォーマンスは、候補のプロンプトを評価するために使用されるスコアリング関数の品質に大きく依存し、結果は異なるタスクドメインまたはモデルによって異なる場合があります。あるモデルに生成された命令が別のモデルに適用される場合、クロスモデル命令転送は限られており、最良の結果を得るためにプロンプトのタスク固有のチューニングを必要とします。
要約すると、類人猿と人間のエンジニアリングプロンプトの主要なパフォーマンスの違いは次のとおりです。
-APEは、多様なタスクのパフォーマンスを最適化するためのプロンプトを体系的に生成および改良し、精度、真実性、情報性など、多くの評価メトリックでより良いまたは同等の結果をもたらします。
- 人間のプロンプトは一貫性がなく、専門家の努力が必要です。 APEはこれらのプロセスを自動化し、精度を改善しながら時間を節約します。
-APEは、手動の再設計なしでタスクを介してより適応性があり、指示を効率的に調整します。
- トレードオフは、計算コストの増加と、タスク固有のスコアリング最適化の潜在的なニーズです。
- APEは、ゼロショット、少数のショット、およびチェーンの促しパラダイムを強化するための実用的なツールとして実証されており、しばしば伝統的な人間で設計されたベースラインプロンプトを上回っています。