Bayesova optimizacija in iskanje omrežja sta dva različna pristopa, ki se uporabljata za nastavitev hiperparametra v prevodu nevronskega stroja (NMT) in drugih modelih strojnega učenja. Razumevanje njihovih razlik, prednosti, slabosti in kontekstov uspešnosti osvetljuje njihovo primernost in učinkovitost sistemov NMT.
Iskanje omrežja je metodičen pristop, ki se ukvarja s hiperparametrom. Deluje tako, da izčrpno našteje kombinacije hiperparametrov prek uporabniško definirane mreže vrednosti, nato pa usposablja in preverja model na vsaki kombinaciji, da bi našli nabor, ki daje najboljšo zmogljivost. Postopek vključuje konstrukcijo končnega omrežja ob upoštevanju vseh diskretnih vrednosti za vsak hiperparameter in izčrpno iskanje vsakega možnega nabora. Ključna omejitev iskanja omrežja je v računskih stroških, zlasti ker se število hiperparametrov in njihovih kandidatnih vrednosti povečuje. Iskalni prostor raste eksponentno, zaradi česar je iskanje omrežja nepraktično za modele z visoko dimenzionalnimi hiperparameterskimi prostori ali dragimi postopki usposabljanja. Iskanje omrežja ocenjuje tudi hiperparametre neodvisno od preteklih ocen, kar pomeni, da ne izkoristi vpogledov, pridobljenih med postopkom nastavitve o obetavnih območjih prostora hiperparametra, kar vodi do neučinkovitega raziskovanja.
Bayesova optimizacija na drugi strani uporablja prilagodljiv, verjetnostni pristop k nastavitvi hiperparametra. Zasnovan je za učinkovito iskanje optimalnih hiperparametrov z modeliranjem ciljne funkcije (npr. Izguba ali natančnost validacije) kot stohastične funkcije in iterativno izbiro vrednosti hiperparametrov, ki uravnotežijo raziskovanje in izkoriščanje s pomočjo nadomestnega modela, običajno Gaussovega procesa. Ta model napoveduje zmogljivost pokrajine hiperparametrov, ki omogoča, da se algoritem osredotoči na najbolj obetavne regije in preskoči manj plodna območja. Z uporabo predhodnih rezultatov ocenjevanja in ocenami negotovosti se lahko Bayesova optimizacija v bistveno manj iteracijah kot iskanje omrežja zbliža na visoko uspešne hiperparametre in s tem prihrani računske vire.
V okviru NMT, ki pogosto vključuje zapletene modele, kot so arhitekture globokih transformatorjev, je uglaševanje številnih hiperparametrov ključnega pomena za doseganje najsodobnejših uspešnosti. Ti hiperparametri lahko vključujejo urnike hitrosti učenja, stopnje osipa, število slojev, velikosti vdelave, velikosti serije, algoritme optimizacije in še več. Zaradi prostranosti tega hiperparametrskega prostora in visokih računskih stroškov vadbe NMT modelov postane iskanje omrežja neizvedljivo, ker zahteva izčrpno oceno nad kombinirano eksplozijo hiperparametrov. Čas in stroški za usposabljanje na stotine ali tisoč modelov NMT, kot zahteva iskanje omrežja, presegajo praktične omejitve virov.
Bayesova optimizacija ponuja jasne praktične prednosti pri nastavitvi hiperparametra NMT. Njegova prilagodljiva narava učinkovito osredotoča iskalna prizadevanja na obetavne kombinacije, kar zmanjšuje število potrebnih modelov. To je še posebej koristno v NMT, saj lahko vsak trening traja ure ali dni na močni strojni opremi. Poleg tega lahko Bayesova optimizacija obvladuje neprekinjene in diskretne hiperparametre, kar omogoča bolj natančno raziskovanje parametrov nastavitve v realnem vrednotenju, kot so stopnje razpadanja učenja, medtem ko je iskanje omrežja omejeno na vnaprej določene diskretne vrednosti.
Empirične primerjave v domenah nastavitve hiperparametra kažejo, da Bayesova optimizacija običajno najde optimalne ali skoraj optimalne konfiguracije hiperparametrov s pet do sedemkrat manj ocenjevanja funkcij v primerjavi z iskanjem omrežja. Prav tako se hitreje zbliža v dobre hiperparametre in se zanesljivo stabilizira okoli optimalnega. Medtem ko iskanje omrežja zagotavlja temeljito iskanje določenega omrežja, ne zagotavlja globalno optimalne rešitve zunaj, ki je omrežje ali med točkami na omrežju, ki jo lahko Bayesova optimizacija bolj prožno raziskuje z modeliranjem.
Če sta model NMT in nabor podatkov relativno majhna ali če računski viri niso glavna skrb, bi bilo mogoče iskanje omrežja še vedno uporabljati zaradi svoje preprostosti in enostavnosti izvajanja. Koristno je tudi za začetne poskuse, kadar je prostor hiperparametra majhen in diskretne vrednosti kandidatov so znane a priori. Vendar pa je za najsodobnejše sisteme NMT, kjer so modeli veliki, čas za usposabljanje pa je velik, Bayesova optimizacija je pogosto najprimernejša metoda, saj uravnoteži kakovost optimizacije z učinkovitostjo virov.
Pri izvedbi iskanje omrežja široko podpirajo knjižnice strojnega učenja s preprostimi vmesniki za določitev omrežij parametrov in avtomatizirano navzkrižno validacijo, zaradi česar je dostopna praktikom. Obstajajo tudi Bayesova orodja za optimizacijo, čeprav potrebujejo več strokovnega znanja za vzpostavitev nadomestnih modelov in funkcij pridobivanja. Nekateri okviri, posebej prilagojeni za Bayesovo optimizacijo, lahko avtomatizirajo velik del postopka, kar ponuja enostavno integracijo, vendar so manj vseprisotni kot pripomočki za iskanje omrežja.
Če povzamemo, Bayesova optimizacija presega iskanje omrežja v učinkovitosti in razširljivosti za nastavitev hiperparametra v NMT, zlasti s povečanjem kompleksnosti modela in hiperparametra. Zmanjšuje število usposabljanja, ki se zahteva z učenjem iz predhodnih ocen in osredotočanje na iskanje na obetavnih regijah. Iskanje omrežja, čeprav je konceptualno preprosto in izčrpno v omrežju, postane računsko previsoko za obsežni NMT in nima prilagodljivosti. Izbira med obema metodama je odvisna od kompromisov med razpoložljivimi računskimi viri, velikostjo in kompleksnostjo modela ter poznavanje tehnik optimizacije, pri čemer je Bayesova optimizacija na splošno naklonjena sodobnim, intenzivnim projektom NMT zaradi svojega bolj inteligentnega iskalnega pristopa in hitrejšega pretvorbe v optimalne hiperparametre.