将自动及时工程(APE)与人工工程提示进行比较

自动提示工程(APE)是一种开发的方法，可以自动生成并选择大型语言模型(LLMS)的自然语言指令(提示)以提高任务性能。它将指令视为一个“程序”，可以通过在LLM生成的指令候选库中进行优化，旨在最大程度地提高所选的分数功能以实现特定任务。然后，通过将其应用于使用另一个LLM的零射击任务来评估所选指令的性能。这种方法与传统的及时工程形成鲜明对比，在该工程中，提示是由人类手动制作的。

已显示，猿可以优于先前的LLM基线提示，并具有明显的边距，并与多个基准的人类生成的指示获得更好或可比的性能。例如，实验表明，猿在所有指标上的表现都优于人类工程的提示，包括对设定任务的真实性和信息性。在一组24项指导归纳任务和21个精心策划的大型基础任务中，猿类生成的提示分别与19和17个任务中的人类提示更好或可比性，表明强大的概括和性能一致性。

猿类的过程涉及基于初始输入输入示例生成各种候选提示，然后根据这些候选者在任务上的有效性来评分这些候选者。这通常包括对正确性，信息性或真实性的自动评估。选择了一定标准的候选人，以在迭代过程中进一步完善，而语言模型根据以前的性能反馈生成了提示的改进版本。这种迭代的改进值特别使猿类可以发现比标准的人工工程提示更好地发现零拍的提示，例如“让我们逐步思考”。

APE的自动方法比手动及时工程提供了几种实际好处：

- 它大大减少了迅速创建的时间和劳动，报告的报告降低了70％的开发周期，加速了AI应用程序的部署。
- 由于彻底的测试和完善，AI响应的准确性可以比手动制作的提示提高35％。
- AI输出中的错误率降低了约45％，增强了可靠性。
- 培训效率的好处，因为APE可以生成综合培训数据，从而加速模型学习，尤其是在专业或数据筛选领域中有价值的。
- 它为各种用例提供了高度的自定义和适应性，自动将迅速生成策略定制为特定任务，而无需人类专业知识。
- Consistency in prompt quality and output is ensured by systematic and repeatable prompt generation processes, reducing dependence on individual human intuition or skill.

将APE与其他及时的指导方法进行比较说明了其独特的优势。检索增强的一代(RAG)结合了检索和一代，但仍然依赖手动及时工程。微调通过域数据修改模型参数，但需要大量的数据集和计算资源。手动及时工程允许灵活性，但耗时且不一致，而APE则可以自动化及时的创建和改进，将可扩展性与及时工程的适应性相结合。

定性分析表明，猿类生成的指示倾向于沿着真实性和信息性的方面进行专门研究，从而实现超过典型的人工工程提示的帕累托最佳权衡。这表明，猿不仅可以指导LLMS提高精度，而且可以针对应用程序需求量身定制的细微效果特征。它还可以预先优化的APE提示，以提高几次学习设置，从而提高整体学习表现。

尽管有优势，但与手动方法相比，猿类有一些局限性。优化的迭代搜索过程可以是计算密集型的，需要其他资源。有效的性能在很大程度上取决于用于评估候选提示的评分功能的质量，并且结果可能随不同的任务域或模型而变化。跨模型指令转移，将一种模型生成的指令应用于另一种模型，这是有限的，需要对提示的特定任务调整以获得最佳结果。

总之，猿和人工工程提示之间的关键性能差异是：

- 猿类系统地生成并完善了提示，以优化各种任务的性能，从而在许多评估指标上取得更好或可比的结果，包括准确性，真实性和信息性。
- 人类的提示可能是不一致的，需要专家努力；猿自动化这些过程，节省时间，同时提高精度。
-APE在没有手动重新设计，有效量身定制指令的情况下更适合于任务。
- 权衡是增加计算成本和对特定任务评分优化的潜在需求。
-APE已被证明是一种实用工具，可以增强零射击，很少的和经过思考的促使范式，通常超过传统的人类工程基线提示。

因此，APE代表了迅速工程的重大进步，提供了自动化，可扩展和表现更高的迅速生成，可竞争或超过人类在广泛的语言任务中的人类专业知识。它的开发表明，大型语言模型的更自主和优化的交互设计的趋势。

猿如何与人工设计的提示相比