Das automatische Eingabeaufforderung Engineering (APE) ist eine Methode, die entwickelt wurde, um automatisch natürliche Sprachanweisungen (Eingabeaufforderungen) für Großsprachenmodelle (LLMs) zu generieren und auszuwählen, um die Aufgabenleistung zu verbessern. Es behandelt die Anweisung als "Programm", die optimiert werden soll, indem Sie einen Pool von Anweisungskandidaten durchsuchen, die von einem LLM generiert werden, um eine ausgewählte Bewertungsfunktion für eine bestimmte Aufgabe zu maximieren. Die Leistung der ausgewählten Anweisung wird dann bewertet, indem sie auf Null-Shot-Aufgaben mit einem anderen LLM angewendet werden. Dieser Ansatz steht im Gegensatz zu traditionellen schnellen Technik, wo Eingabeaufforderungen manuell von Menschen hergestellt werden.
Es wurde gezeigt, dass APE frühere LLM-Baseline-Eingabeaufforderungen mit einem signifikanten Rand übertreffen und eine bessere oder vergleichbare Leistung mit menschlich erstellten Anweisungen über mehrere Benchmarks hinweg erzielt. Beispielsweise zeigen Experimente, dass APE die Eingabeaufforderungen in die Menschen mit Menschenmotor zu allen Metriken übertrifft, einschließlich Wahrhaftigkeit und Informativität bei festgelegten Aufgaben. In einer Reihe von 24 Anweisungseinführungsaufgaben und 21 kuratierten Aufgaben mit Big-Bench waren die APE-erzeugten Eingaben besser oder vergleichbar mit menschlichen Eingaben bei 19 bzw. 17 Aufgaben, was auf eine starke Generalisierung und Leistungskonsistenz hinweist.
Der Prozess von APE beinhaltet die Erstellung einer Vielzahl von Kandidatenanforderungen, die auf anfänglichen Beispielen für Input-Outputs basieren, gefolgt von der Bewertung dieser Kandidaten gemäß ihrer Wirksamkeit der Aufgabe. Dies umfasst häufig eine automatisierte Bewertung von Korrektheit, Informativität oder Wahrhaftigkeit. Kandidaten über bestimmten Kriterien werden zur weiteren Verfeinerung eines iterativen Prozesses ausgewählt, wobei das Sprachmodell verbesserte Versionen von Eingabeaufforderungen erzeugt, die auf früheren Leistungsfeedbacks basieren. Diese iterative Verfeinerung ermöglicht es APE insbesondere, eine bessere Eingabeaufforderungen in der Null-Shot-Kette zu entdecken als Standard-Eingabeaufforderungen in Menschen mit menschlichem Engine wie "Lassen Sie uns Schritt für Schritt denken".
Der automatische Ansatz von APE bietet mehrere praktische Vorteile gegenüber manuellen Eingabeaufforderungen:
- Es reduziert die Zeit und die Arbeit, die an der sofortigen Erstellung beteiligt sind, mit Berichten über eine Verringerung der Entwicklungszyklen um bis zu 70% und beschleunigt die Bereitstellung von AI -Anwendungen.
- Die Genauigkeit von AI -Antworten kann aufgrund von gründlichen Tests und Verfeinerungen um bis zu 35% verbessert werden.
- Die Fehlerraten in AI -Ausgängen sinken um ca. 45%, wodurch die Zuverlässigkeit verbessert wird.
- Die Schulungseffizienzleistungen als APE können synthetische Trainingsdaten generieren, die das Modelllernen beschleunigen, insbesondere in spezialisierten oder Daten-Scarce-Domänen.
- Es bietet eine hohe Anpassung und Anpassungsfähigkeit an verschiedene Anwendungsfälle, wobei die Strategien zur Erzeugung von Eingabeaufforderungen automatisch auf bestimmte Aufgaben anpassen, ohne dass ein menschliches Know -how erforderlich ist.
- Die Konsistenz in der sofortigen Qualität und in der Ausgabe wird durch systematische und wiederholbare Prozesse zur Erzeugung der Bedarfsformung gewährleistet, wodurch die Abhängigkeit von individueller menschlicher Intuition oder Fähigkeiten verringert wird.
Der Vergleich von APE mit anderen forderten Leitmethoden zeigt seine einzigartigen Vorteile. RAGRIEVAL-AUGmented Generation (RAG) kombiniert Abruf und Generation, stützt sich jedoch immer noch auf manuell eingehend technisch. Feinabstimmung verändert die Modellparameter mit Domänendaten, erfordert jedoch große Datensätze und Rechenressourcen. Die manuelle Eingabeaufforderung Engineering ermöglicht Flexibilität, ist jedoch zeitaufwändig und inkonsistent, während APE die sofortige Erstellung und Verfeinerung automatisiert und die Skalierbarkeit mit der Anpassungsfähigkeit des schnellen Technik kombiniert.
Qualitative Analysen zeigen, dass APE-erzeugte Anweisungen dazu neigen, sich auf Dimensionen der Wahrhaftigkeit und Informativität spezialisiert und paretooptimale Kompromisse erzielen, die typische Menschen mit Menschenmotor übertreffen. Dies deutet darauf hin, dass APE LLMs nicht nur zu einer verbesserten Genauigkeit, sondern auch zu nuancierten Ausgangseigenschaften führen kann, die auf die Anwendungsanforderungen zugeschnitten sind. Es kann auch optimierte APE-Eingabeaufforderungen auf nur wenige Schuss-Lern-Setups vorbereiten und die allgemeine Lernleistung verbessern.
Trotz seiner Vorteile hat APE im Vergleich zu manuellen Ansätzen einige Einschränkungen. Der iterative Suchprozess für Optimierung kann rechenintensiv sein und zusätzliche Ressourcen erfordern. Eine effektive Leistung hängt stark von der Qualität der Bewertungsfunktion ab, die zur Bewertung von Kandidatenanforderungen verwendet wird, und die Ergebnisse können mit unterschiedlichen Task -Domänen oder -modellen variieren. Die Übertragung des Cross-Modell-Anweisungen, bei dem die für ein Modell erzeugten Anweisungen auf ein anderes angewendet werden, ist begrenzt und erfordert die aufgabenspezifische Abstimmung von Eingabeaufforderungen für die besten Ergebnisse.
Zusammenfassend lässt sich sagen, dass die wichtigsten Leistungsunterschiede zwischen APE und menschlich-interessanter Eingabeaufforderungen sind:
- APE generiert und verfeinert die Aufforderungen, die Leistung bei verschiedenen Aufgaben zu optimieren, was zu besseren oder vergleichbaren Ergebnissen zu vielen Bewertungsmetriken führt, einschließlich Genauigkeit, Wahrhaftigkeit und Informativität.
- menschliche Aufforderungen können inkonsistent sein und Expertenanstrengungen erfordern. APE automatisiert diese Prozesse und spart Zeit und verbessert gleichzeitig die Präzision.
- APE ist anpassungsfähiger über Aufgaben ohne manuelle Neugestaltung und Anweisungen effizient anpassen.
-Der Kompromiss besteht aus erhöhten Rechenkosten und potenziellen Bedürfnissen für aufgabenspezifische Bewertungsoptimierung.
-APE wurde als praktisches Instrument zur Verbesserung von Null-Shot-, wenigen Schuss- und Ketten-Doten-Doten-Aufgaben gezeigt, was Paradigmen veranlasst, die häufig traditionelle Basisaufforderungen in menschlichem Engine übertreffen.