Na základe výsledkov vyhľadávania je tu porovnanie Bayesiánskej optimalizácie a vyhľadávania mriežky pre ladenie hyperparametrov v modeloch Neural Machine Translation (NMT):
1. Efektívnosť:
- Výsledky vyhľadávania naznačujú, že Bayesiánska optimalizácia je vo všeobecnosti efektívnejšia ako vyhľadávanie v sieti pre optimalizáciu hyperparametrov.
- Grid Search vyhodnocuje všetky možné kombinácie hyperparametrov, ktoré môžu byť výpočtovo nákladné, najmä pre vysokorozmerné vyhľadávacie priestory.
- Na rozdiel od toho Bayesovská optimalizácia používa na usmernenie vyhľadávania pravdepodobnostný model so zameraním na najsľubnejšie oblasti priestoru hyperparametrov, čo si vyžaduje menej hodnotení na nájdenie dobrých konfigurácií.
2. Výkon:
- Výsledky vyhľadávania naznačujú, že Bayesiánska optimalizácia môže prekonať Grid Search z hľadiska výkonu konečného modelu, ako je skóre BLEU.
- Je to preto, že Bayesiánska optimalizácia dokáže efektívnejšie preskúmať priestor hyperparametrov a nájsť lepšie výkonné konfigurácie v porovnaní s vyčerpávajúcim, ale rigidným prístupom Grid Search.
3. Zovšeobecnenie:
- Výsledky vyhľadávania uvádzajú, že dobré konfigurácie hyperparametrov nájdené Bayesiánskou optimalizáciou sa môžu lepšie zovšeobecniť v rôznych súboroch údajov v porovnaní s vyhľadávaním v sieti.
- Je to preto, že Bayesiánska optimalizácia dokáže zachytiť základné vzťahy medzi hyperparametrami a výkonnosťou modelu, čo môže byť prenosnejšie.
4. Zložitosť:
- Implementácia bayesiánskej optimalizácie je vo všeobecnosti zložitejšia ako vyhľadávanie v sieti, pretože si vyžaduje vytvorenie pravdepodobnostného modelu a akvizičnej funkcie na usmernenie vyhľadávania.
- Grid Search, na druhej strane, je jednoduchší a priamočiarejší prístup, ktorý môže byť v niektorých prípadoch preferovaný, najmä pre nízkorozmerné hyperparametrické priestory.
Stručne povedané, výsledky vyhľadávania naznačujú, že Bayesiánska optimalizácia je zvyčajne efektívnejšia a efektívnejšia ako vyhľadávanie v sieti pre ladenie hyperparametrov v modeloch NMT, ale prichádza s vyššou zložitosťou implementácie. Voľba medzi týmito dvoma prístupmi môže závisieť od konkrétneho problému, veľkosti priestoru hyperparametrov a dostupných výpočtových zdrojov.
Citácie:[1] https://stackoverflow.com/questions/55849512/gridsearchcv-vs-bayesian-optimization
[2] http://cs.ndsu.edu/~siludwig/Publish/papers/CEC2021.pdf
[3] https://github.com/tensorflow/nmt/issues/484
[4] https://towardsdatascience.com/gridsearch-vs-randomizedsearch-vs-bayesiansearch-cfa76de27c6b?gi=3ed66c888683
[5] https://www.cs.jhu.edu/~kevinduh/t/kduh-proposal2017.pdf