パフォーマンスの点で、APE は人間が操作したプロンプトとどのように比較されますか

検索結果に基づくと、自動プロンプトエンジニアリング (APE) と人間が操作したプロンプトとの比較に関する主な結果は次のとおりです。

1. ゼロショットパフォーマンス: 検索結果は、APE が生成したプロンプトが、ゼロショット設定のさまざまなタスクにおいて人間が操作したプロンプトよりも優れたパフォーマンスを発揮できることを示しています。たとえば、TruthfulQA ベンチマークでは、APE が生成したプロンプトは、人間が作成したプロンプトと比較して、真実性や有益性などの指標でより高いスコアを達成しました [1]。

2. 少数ショットのインコンテキスト学習: APE が生成したプロンプトは、人間が操作したプロンプトと比較して、言語モデルの少数ショットのインコンテキスト学習パフォーマンスを向上させることも示されています。検索結果では、APE が 24 の命令誘導タスクのうち 21 で数ショットのパフォーマンスを向上させたと述べています [1]。

3. 推論と論理的思考: 注目すべき例の 1 つは、APE が以前の研究で人間が操作した「段階的に考えてみましょう」というプロンプトよりも優れた一般的な「思考の連鎖」プロンプトを発見できたことです。この APE が生成したプロンプトにより、MultiArith や GSM8K などの数的推論ベンチマークのパフォーマンスが向上しました [1][3]。

4. タスクの幅: 検索結果は、APE が生成したプロンプトが、言語理解、読解、要約、および BIG からのさまざまな推論タスクを含む、幅広いタスクで人間のプロンプトと同等またはそれを上回るパフォーマンスを発揮したことを示しています。 -ベンチベンチマーク[1]。

要約すると、APE の主な利点は、ゼロショット設定と少数ショット設定の両方で、さまざまなタスクとベンチマークのセットにわたって、人間が作成したプロンプトよりも効果的なプロンプトを自動的に生成できる機能であると思われます。自動化されたプロンプトエンジニアリングのアプローチは、手動のプロンプト設計で達成できるものを超える、大規模な言語モデルの新しい機能を解放すると思われます。

引用:
[1] https://sites.google.com/view/automatic-prompt-engineer
[2] https://github.com/keirp/automatic_prompt_engineer
[3] https://www.promptingguide.ai/techniques/ape
[4] https://futureskillsacademy.com/blog/automatic-prompt-engineering-ape/
[5] https://blog.gopenai.com/unleashing-the-power-of-ai-to-self-generate-prompts-a-dive-into-the-automatic-prompt-engineer-d87f2db83f56