Automātiska uzvednes inženierija (APE) ir izstrādāta metode, lai automātiski ģenerētu un atlasītu dabiskās valodas instrukcijas (uzvednes) lielām valodas modeļiem (LLM), lai uzlabotu uzdevuma veiktspēju. Tas uzskata instrukciju kā "programmu", kas jāoptimizē, meklējot LLM ģenerēto instrukciju kandidātu kopumu, kura mērķis ir maksimizēt izvēlēto punktu funkciju konkrētam uzdevumam. Pēc tam izvēlētās instrukcijas veiktspēja tiek novērtēta, piemērojot to nulles šāviena uzdevumiem ar citu LLM. Šī pieeja ir pretstatā tradicionālajai tūlītējai inženierijai, kur cilvēki manuāli izstrādā.
Ir pierādīts, ka APE pārspēj iepriekšējo LLM pamata pamudinājumus ar ievērojamu rezervi un sasniedz labāku vai salīdzināmu sniegumu ar cilvēku ģenerētām instrukcijām vairākos etalonos. Piemēram, eksperimenti parāda, ka APE pārspēj cilvēku inženierzinātnes par visām metrikām, ieskaitot patiesumu un informētību par noteiktajiem uzdevumiem. 24 instrukciju indukcijas uzdevumu komplektā un 21 veidotais lielā statņa uzdevums APE ģenerētās uzvednes bija labākas vai salīdzināmas ar attiecīgi cilvēku pamudinājumiem attiecīgi 19 un 17 uzdevumos, norādot uz spēcīgu vispārinājumu un veiktspējas konsistenci.
APE process ietver daudzveidīga kandidātu uzvedņu kopuma ģenerēšanu, pamatojoties uz sākotnējiem ievades-izejas piemēriem, kam seko šo kandidātu vērtēšana atbilstoši to efektivitātei uz uzdevumu. Tas bieži ietver automatizētu pareizības, informativitātes vai patiesuma novērtēšanu. Kandidāti virs noteiktiem kritērijiem tiek izvēlēti turpmākai uzlabošanai iteratīvā procesā, valodas modelim ģenerējot uzlabotas uzvednes versijas, pamatojoties uz iepriekšējo snieguma atgriezenisko saiti. Šī iteratīvā precizēšana, jo īpaši ļauj APE atklāt labākas uznākšanas ķēdes uzvednes, nevis standarta cilvēku inženierijas, piemēram, “Domāsim soli pa solim”.
APE automātiskā pieeja sniedz vairākus praktiskus ieguvumus salīdzinājumā ar manuālo uzvednes inženieriju:
- Tas ievērojami samazina laiku un darbaspēku, kas saistīts ar tūlītēju izveidi, ar ziņojumiem par attīstības ciklu samazināšanos līdz 70%, paātrinot AI lietojumprogrammu izvietošanu.
- AI reakciju precizitāti var uzlabot pat par 35% vairāk nekā manuāli izstrādātas uzvednes rūpīgas pārbaudes un uzlabošanas dēļ.
- Kļūdu līmeņi AI izejās samazinās par aptuveni 45%, palielinot ticamību.
- Apmācības efektivitātes ieguvumi kā APE var iegūt sintētisko apmācības datus, kas paātrina modeļa mācīšanos, īpaši vērtīgu specializētās vai datu akcijās.
- Tas nodrošina augstu pielāgošanu un pielāgojamību dažādiem lietošanas gadījumiem, automātiski pielāgojot uzvednes ģenerēšanas stratēģijas īpašiem uzdevumiem, nepieprasot cilvēku zināšanas.
- Sistemātiskos un atkārtojamos uzvednes ģenerēšanas procesos tiek nodrošināta tūlītējas kvalitātes un izvades konsekvence, samazinot atkarību no individuālās intuīcijas vai prasmēm.
Salīdzinot APE ar citām ātru vadības metodēm, parāda tās unikālās priekšrocības. Izgatavota paaudze (RAG) apvieno izguvi un paaudzi, bet joprojām ir atkarīga no manuālas uzvednes inženierijas. Precīza noregulēšana modificē modeļa parametrus ar domēna datiem, bet nepieciešami lielas datu kopas un skaitļošanas resursi. Manuāla uzvednes inženierija ļauj elastīgi, bet ir laikietilpīga un nekonsekventa, savukārt APE automatizē ātru izveidi un uzlabošanu, apvienojot mērogojamību ar tūlītēju inženiertehnisko pielāgošanos.
Kvalitatīvās analīzes rāda, ka ape ģenerētās instrukcijas mēdz specializēties visā patiesuma un informatīvības dimensijās, sasniedzot Pareto optimālos kompromisus, kas pārsniedz tipiskas uzvednes cilvēku inženierijas. Tas liek domāt, ka APE var vadīt LLM ne tikai uzlabotu precizitāti, bet arī uz niansētiem izejas raksturlielumiem, kas pielāgoti lietojumprogrammas vajadzībām. Tas var arī sagatavot optimizētus ape pamudinājumus dažiem kadru mācību iestatījumiem, uzlabojot kopējo mācību sniegumu.
Neskatoties uz priekšrocībām, APE ir daži ierobežojumi, salīdzinot ar manuālo pieeju. Iteratīvais optimizācijas meklēšanas process var būt skaitļošanas ziņā intensīvs un nepieciešami papildu resursi. Efektīva veiktspēja ir ļoti atkarīga no vērtēšanas funkcijas kvalitātes, ko izmanto kandidātu uzvedņu novērtēšanai, un rezultāti var atšķirties atkarībā no dažādiem uzdevumu domēniem vai modeļiem. Starpmodeļa instrukciju pārsūtīšana, kurā vienam modelim ģenerētās instrukcijas tiek izmantotas citam, ir ierobežota, un tā ir nepieciešama uzvedības noteikšanai, lai iegūtu labākos rezultātus.
Rezumējot, galvenās veiktspējas atšķirības starp APE un cilvēku inženierzinātnēm ir:
- APE sistemātiski ģenerē un uzlabo uzvednes, lai optimizētu dažādu uzdevumu veiktspēju, izraisot labākus vai salīdzināmus rezultātus daudzos novērtēšanas metrikā, ieskaitot precizitāti, patiesumu un informativitāti.
- Cilvēku uzvednes var būt nekonsekventas un prasīt ekspertu pūles; APE automatizē šos procesus, ietaupot laiku, vienlaikus uzlabojot precizitāti.
- APE ir vairāk pielāgojamāka dažādos uzdevumos bez manuāla pārveidošanas, efektīvi pielāgojot instrukcijas.
-Kompromiss ir palielinātas skaitļošanas izmaksas un iespējamās vajadzības pēc uzdevumiem specifiskas vērtēšanas optimizācijas.
-APE ir pierādīts kā praktisks līdzeklis, lai uzlabotu nulles šāvienu, maz kadru un pārdomātu ķēdes, pamudinot paradigmas, bieži pārspējot tradicionālās cilvēku inženierzinātņu pamata uzvednes.