Samodejni hitri inženiring (APE) je metoda, razvita za samodejno ustvarjanje in izbiro navodil za naravni jezik (pozivi) za velike jezikovne modele (LLM) za izboljšanje uspešnosti nalog. Navodila obravnava kot "program", ki ga je treba optimizirati z iskanjem po skupini kandidatov za pouk, ki jih ustvari LLM, s čimer želi povečati izbrano funkcijo ocene za določeno nalogo. Učinkovitost izbranega navodila se nato oceni tako, da ga uporabimo pri ničelnih nalogah z drugim LLM. Ta pristop je v nasprotju s tradicionalnim hitrim inženiringom, kjer ljudje ročno izdelujejo ljudje.
Pokazalo se je, da APE presega predhodne izhodiščne pozive LLM z znatno mejo in dosega boljše ali primerljive zmogljivosti z navodili, ki jih ustvarja človeka, v več meriloh. Na primer, eksperimenti kažejo, da APE presega človeške inženirske pozive na vse meritve, vključno z resničnostjo in informativnostjo pri postavljenih nalogah. V naboru 24 nalog indukcijskih nalog in 21 kuriranih nalog z velikimi kljukicami so bili pri 19 oziroma 17 nalogah, ki jih ustvari Ape, boljši ali primerljivi s človeškimi pozivi, kar kaže na močno posplošitev in doslednost uspešnosti.
Proces APE vključuje ustvarjanje raznolikega nabora kandidatov na podlagi začetnih primerov vhoda-izhod, ki mu sledi ocenjevanje teh kandidatov glede na njihovo učinkovitost nalogi. To pogosto vključuje samodejno ocenjevanje pravilnosti, informativnosti ali resnice. Kandidati, ki so nad določenimi merili, so izbrani za nadaljnjo izpopolnjevanje v iterativnem procesu, pri čemer jezikovni model ustvarja izboljšane različice pozivov na podlagi prejšnjih povratnih informacij uspešnosti. To iterativno izpopolnjevanje APE-ja predvsem omogoča, da odkrije boljše pozive, ki jih premišljuje z ničelnim strelom kot standardni pozivi, ki jih je človeško zasnovala, kot so "Razmislimo korak za korakom".
APE -jev samodejni pristop prinaša več praktičnih prednosti pri ročnem hitrem inženiringu:
- znatno zmanjša čas in delovno silo, ki je vključena v hitro ustvarjanje, s poročili o 70 -odstotnem zmanjšanju razvojnih ciklov, kar pospešujejo uvajanje aplikacij AI.
- Natančnost odzivov AI je mogoče izboljšati za kar 35% nad ročno izdelanimi pozivi zaradi temeljitega testiranja in izpopolnjevanja.
- Stopnje napak v izhodih AI se zmanjšajo za približno 45%, kar povečuje zanesljivost.
- koristi učinkovitosti usposabljanja, saj lahko APE ustvari sintetične podatke o usposabljanju, ki pospešujejo učenje modela, zlasti dragocene v specializiranih ali podatkovnih domenah.
- It provides high customization and adaptability to diverse use cases, automatically tailoring prompt generation strategies to specific tasks without requiring human expertise.
- Doslednost v hitri kakovosti in proizvodnji zagotavljajo sistematični in ponovljivi procesi hitrega ustvarjanja, kar zmanjšuje odvisnost od posamezne človeške intuicije ali spretnosti.
Primerjava APE z drugimi hitrimi metodami smernic ponazarja njene edinstvene prednosti. Generacija (RAG), ki se ukvarja z iskanjem, združuje iskanje in generacijo, vendar se še vedno opira na ročno hitro inženiring. Fino nastavitev spreminja parametre modela z podatki o domeni, vendar zahteva velike nabore in računske vire. Ročni hitro inženiring omogoča prilagodljivost, vendar je zamudna in nedosledna, medtem ko APE avtomatizira hitro ustvarjanje in izpopolnjevanje, kar združuje razširljivost s hitro inženirsko prilagodljivostjo.
Kvalitativne analize kažejo, da se navodila, ki jih ustvarjajo, ponavadi specializirajo po razsežnostih resničnosti in informativnosti, dosegajo pareto-optimalne kompromise, ki presegajo tipične pozive, ki jih je človeka. To kaže, da lahko APE vodi LLM ne le za večjo natančnost, ampak tudi do niansiranih izhodnih značilnosti, prilagojenih potrebam aplikacij. Prav tako lahko predvideva optimizirane pozive APE za nekaj nastavitev učenja, s čimer izboljša splošno uspešnost učenja.
Kljub svojim prednostim ima APE nekatere omejitve v primerjavi z ročnimi pristopi. Iterativni postopek iskanja za optimizacijo je lahko računalniško intenziven in zahteva dodatne vire. Učinkovita uspešnost je močno odvisna od kakovosti funkcije točkovanja, ki se uporablja za oceno pozivov kandidatov, rezultati pa se lahko razlikujejo glede na različne domene ali modele. Prenos navodil za navzkrižno model, pri čemer so navodila, ustvarjena za en model, uporabljena v drugem, je omejen, kar zahteva, da se za najboljše rezultate uglašajo pozive.
Če povzamemo, so ključne razlike v uspešnosti med APE in človeškimi inženirskimi pozivi:
- APE sistematično ustvarja in izpopolnjuje pozive za optimizacijo uspešnosti na različnih nalogah, kar vodi do boljših ali primerljivih rezultatov na številnih metrikah ocenjevanja, vključno z natančnostjo, resnico in informativnostjo.
- Človeški pozivi so lahko nedosledni in zahtevajo strokovno napor; APE avtomatizira te procese in prihrani čas, hkrati pa izboljšuje natančnost.
- APE je bolj prilagodljiv med nalogami brez ročnega preoblikovanja, učinkovito prilagoditve navodil.
-Kompromis je v povečanih računskih stroških in potencialni potrebi po optimizaciji ocenjevanja točkovanja.
-APE je bil dokazan kot praktično orodje za izboljšanje ničelnega strela, nekaj posnetkov in premišljevanja, ki spodbujajo paradigme, ki pogosto presegajo tradicionalne osnovne pozive, ki jih je človeka izdeloval.