Kakšna je Bayesova optimizacija v primerjavi z iskanjem po omrežju za NMT

Na podlagi rezultatov iskanja je tukaj primerjava Bayesove optimizacije in iskanja po mreži za uravnavanje hiperparametrov v modelih nevronskega strojnega prevajanja (NMT):

1. Učinkovitost:
- Rezultati iskanja kažejo, da je Bayesova optimizacija na splošno učinkovitejša od iskanja po mreži za optimizacijo hiperparametrov.
- Mrežno iskanje ovrednoti vse možne kombinacije hiperparametrov, kar je lahko računsko drago, zlasti za visokodimenzionalne iskalne prostore.
- V nasprotju s tem Bayesova optimizacija uporablja verjetnostni model za usmerjanje iskanja, pri čemer se osredotoča na najbolj obetavne regije prostora hiperparametrov, zato je za iskanje dobrih konfiguracij potrebnih manj vrednotenj.

2. Zmogljivost:
- Rezultati iskanja kažejo, da lahko Bayesova optimizacija prekaša iskanje po mreži v smislu končne zmogljivosti modela, kot je rezultat BLEU.
– To je zato, ker lahko Bayesova optimizacija učinkoviteje raziskuje prostor hiperparametrov in najde zmogljivejše konfiguracije v primerjavi z izčrpnim, a togim pristopom iskanja po mreži.

3. Posploševanje:
- Rezultati iskanja omenjajo, da se lahko dobre konfiguracije hiperparametrov, ki jih najde Bayesova optimizacija, bolje posplošujejo v različnih nizih podatkov v primerjavi z iskanjem po mreži.
– To je zato, ker lahko Bayesova optimizacija zajame temeljna razmerja med hiperparametri in zmogljivostjo modela, kar je morda bolj prenosljivo.

4. Zapletenost:
- Implementacija Bayesove optimizacije je na splošno bolj zapletena kot iskanje po omrežju, saj zahteva izgradnjo verjetnostnega modela in funkcije pridobivanja za vodenje iskanja.
- Iskanje po mreži je po drugi strani enostavnejši in enostavnejši pristop, ki ima v nekaterih primerih prednost, zlasti za nizkodimenzionalne prostore hiperparametrov.

Če povzamemo, rezultati iskanja kažejo, da je Bayesova optimizacija običajno učinkovitejša in uspešnejša od iskanja po omrežju za uravnavanje hiperparametrov v modelih NMT, vendar prihaja z višjo kompleksnostjo implementacije. Izbira med obema pristopoma je lahko odvisna od specifičnega problema, velikosti prostora hiperparametrov in razpoložljivih računalniških virov.

Citati:
[1] https://stackoverflow.com/questions/55849512/gridsearchcv-vs-bayesian-optimization
[2] http://cs.ndsu.edu/~siludwig/Publish/papers/CEC2021.pdf
[3] https://github.com/tensorflow/nmt/issues/484
[4] https://towardsdatascience.com/gridsearch-vs-randomizedsearch-vs-bayesiansearch-cfa76de27c6b?gi=3ed66c888683
[5] https://www.cs.jhu.edu/~kevinduh/t/kduh-proposal2017.pdf