Porovnání automatického význačného inženýrství (APE) s pokyny pro člověka

Automatické výzvy Engineering (APE) je metoda vyvinutá pro automatické generování a výběr pokynů pro přirozený jazyk (výzvy) pro velké jazykové modely (LLM) pro zlepšení výkonu úkolu. Považuje se s instrukcí za „program“, který má být optimalizován vyhledáváním kandidátů na fond instrukcí generovaných LLM, s cílem maximalizovat vybranou funkci skóre pro konkrétní úkol. Výkon vybrané instrukce se poté vyhodnotí použitím na úkoly s nulovým výstřelem s jiným LLM. Tento přístup je v kontrastu s tradičním rychlým inženýrstvím, kde jsou výzvy ručně vytvářeny lidmi.

Ukázalo se, že APE překonává předchozí výšky LLM o významnou marži a dosahuje lepšího nebo srovnatelného výkonu s pokyny generovanými lidmi napříč několika benchmarky. Experimenty například ukazují, že APE překonává výzev pro člověka na všechny metriky, včetně pravdivosti a informativity na stanovených úkolech. V sadě 24 úkolů indukce instrukcí a 21 kurátorských úkolů s velkými lavičkami byly výzvy generované lidoopy lepší nebo srovnatelné s lidskými výzvami v 19 a 17 úkolech, což ukazuje na silnou zobecnění a konzistenci výkonu.

Proces APE zahrnuje generování rozmanité sady kandidátů na základě počátečních příkladů vstup-výstup, po kterém následuje skóre těchto kandidátů podle jejich účinnosti v úkolu. To často zahrnuje automatizované hodnocení správnosti, informativity nebo pravdivosti. Kandidáti nad určitými kritérii jsou vybráni pro další zdokonalení v iteračním procesu, přičemž jazykový model generuje vylepšené verze výzev na základě předchozí zpětné vazby výkonu. Toto iterativní zdokonalení zejména umožňuje APE objevovat lepší výzvy s nulovým výstřelem, než standardní výzvy pro člověka, jako je „Pojďme si myslet krok za krokem“.

Automatický přístup APE přináší několik praktických výhod oproti manuálnímu výkonovému inženýrství:

- Významně snižuje čas a práci spojenou s rychlým tvorbou, přičemž zprávy o až 70% snížení vývojových cyklů zrychlují nasazení aplikací AI.
- Přesnost odpovědí AI lze zlepšit až o 35% oproti ručně vytvořeným výzvám kvůli důkladnému testování a zdokonalení.
- Míra chyb ve výstupních výstupů AI se snižuje přibližně o 45%, což zvyšuje spolehlivost.
- Výhody efektivity školení, protože APE může generovat data syntetického tréninku, která urychlují učení modelu, zejména cenné ve specializovaných nebo datově řečnických doménách.
- Poskytuje vysoké přizpůsobení a přizpůsobivost různým případům použití a automaticky přizpůsobuje strategie výroby rychlých generování konkrétním úkolům, aniž by vyžadovala lidské odborné znalosti.
- Konzistence v rychlé kvalitě a výstupu je zajištěna systematickými a opakovatelnými procesy vytvářením rychlostí, což snižuje závislost na individuální lidské intuici nebo dovednosti.

Porovnání APE s dalšími metodami rychlých pokynů ilustruje jeho jedinečné výhody. Generace vyhledávání-augmentovaná (RAG) kombinuje vyhledávání a generaci, ale stále se spoléhá na manuální rychlé inženýrství. Jemně doladění modifikuje parametry modelu s daty domény, ale vyžaduje velké datové sady a výpočetní zdroje. Manuální rychlé inženýrství umožňuje flexibilitu, ale je časově náročné a nekonzistentní, zatímco APE automatizuje rychlé vytváření a zdokonalení a kombinuje škálovatelnost s rychlou přizpůsobivostí.

Kvalitativní analýzy ukazují, že pokyny generované lidoopy mají tendenci se specializovat podél dimenzí pravdivosti a informativity a dosahovat pareto-optimálních kompromisů, které překonávají typické výzvy pro člověka. To naznačuje, že APE může vést LLMS nejen ke zlepšení přesnosti, ale také směrem k jemným výstupním charakteristikám přizpůsobeným potřebám aplikací. Může také připravit optimalizované výzvy APE na nastavení několika výuků, což zvyšuje celkovou výkonnost učení.

Navzdory svým výhodám má APE ve srovnání s manuálními přístupy určitá omezení. Proces iterativního vyhledávání pro optimalizaci může být výpočetně intenzivní a vyžaduje další zdroje. Efektivní výkon do značné míry závisí na kvalitě funkce bodování použité k hodnocení kandidátů a výsledky se mohou lišit podle různých domén nebo modelů úkolů. Přenos instrukcí pro křížový model, kde jsou pokyny generované pro jeden model aplikovány na druhý, je omezeno, což vyžaduje vyladění výzev specifické pro úkol pro nejlepší výsledky.

Stručně řečeno, klíčové rozdíly v oblasti výkonu mezi APE a výzvami pro člověka jsou:

- APE systematicky generuje a upřesňuje výzvy k optimalizaci výkonu v různých úkolech, což vede k lepším nebo srovnatelným výsledkům na mnoha metrikách hodnocení, včetně přesnosti, pravdivosti a informativity.
- Lidské výzvy mohou být nekonzistentní a vyžadují odborné úsilí; APE automatizuje tyto procesy, šetří čas a zlepšuje přesnost.
- APE je přizpůsobivější napříč úkoly bez manuálního přepracování a efektivně krejčovských pokynů.
-kompromis má zvýšené výpočetní náklady a potenciální potřeba optimalizace bodování specifické pro úkol.
-APE byl prokázán jako praktický nástroj k posílení nulových výstřelů, několika výstřelů a promyšlených vybírání paradigmat, často překonávajících tradiční výchozí výzvy pro člověka.

APE tedy představuje významný pokrok v rychlém inženýrství a poskytuje automatizované, škálovatelné a vyšší výkonné generování výkonu, která soupeří nebo překračuje lidské odborné znalosti v celé řadě jazykových úkolů. Jeho vývoj naznačuje trend směrem k autonomnějšímu a optimalizovanějšímu návrhu interakce pro modely velkých jazyků.

Jak se lidoop porovnává s výzvami pro člověka z hlediska výkonu