Pamatojoties uz meklēšanas rezultātiem, šeit ir Bajesa optimizācijas un režģa meklēšanas salīdzinājums hiperparametru regulēšanai neironu mašīntulkošanas (NMT) modeļos:
1. Efektivitāte:
- Meklēšanas rezultāti liecina, ka Beijesa optimizācija parasti ir efektīvāka nekā režģa meklēšana hiperparametru optimizācijai.
- Režģa meklēšana novērtē visas iespējamās hiperparametru kombinācijas, kas var būt skaitļošanas ziņā dārgas, īpaši augstas dimensijas meklēšanas telpām.
- Turpretim Bajesa optimizācija izmanto varbūtības modeli, lai vadītu meklēšanu, koncentrējoties uz daudzsološākajiem hiperparametru telpas reģioniem, tādējādi, lai atrastu labas konfigurācijas, ir nepieciešams mazāk novērtējumu.
2. Veiktspēja:
- Meklēšanas rezultāti liecina, ka Beijesa optimizācija var pārspēt režģa meklēšanu gala modeļa veiktspējas, piemēram, BLEU rādītāja, ziņā.
- Tas ir tāpēc, ka Bajesa optimizācija var efektīvāk izpētīt hiperparametru telpu un atrast labākas veiktspējas konfigurācijas salīdzinājumā ar izsmeļošu, bet stingru režģa meklēšanas pieeju.
3. Vispārināšana:
- Meklēšanas rezultātos minēts, ka labas hiperparametru konfigurācijas, kas atrastas, izmantojot Bayesian Optimization, var labāk vispārināt dažādās datu kopās, salīdzinot ar režģa meklēšanu.
- Tas ir tāpēc, ka Bajesa optimizācija var aptvert pamatā esošās attiecības starp hiperparametriem un modeļa veiktspēju, kas var būt vairāk pārnesamas.
4. Sarežģītība:
- Baijesa optimizācijas ieviešana parasti ir sarežģītāka nekā režģa meklēšana, jo ir nepieciešams izveidot varbūtības modeli un iegūšanas funkciju, lai vadītu meklēšanu.
- No otras puses, režģa meklēšana ir vienkāršāka un vienkāršāka pieeja, kurai dažos gadījumos var dot priekšroku, jo īpaši zemas dimensijas hiperparametru telpām.
Rezumējot, meklēšanas rezultāti liecina, ka Bayesian optimizācija parasti ir efektīvāka un efektīvāka nekā režģa meklēšana hiperparametru regulēšanai NMT modeļos, taču tai ir lielāka ieviešanas sarežģītība. Izvēle starp abām pieejām var būt atkarīga no konkrētās problēmas, hiperparametru telpas lieluma un pieejamajiem skaitļošanas resursiem.
Citāts:[1] https://stackoverflow.com/questions/55849512/gridsearchcv-vs-bayesian-optimization
[2] http://cs.ndsu.edu/~siludwig/Publish/papers/CEC2021.pdf
[3] https://github.com/tensorflow/nmt/issues/484
[4] https://towardsdatascience.com/gridsearch-vs-randomizedsearch-vs-bayesiansearch-cfa76de27c6b?gi=3ed66c888683
[5] https://www.cs.jhu.edu/~kevinduh/t/kduh-proposal2017.pdf