Otsingutulemuste põhjal on siin Bayesi optimeerimise ja võrguotsingu võrdlus hüperparameetrite häälestamiseks närvimasintõlke (NMT) mudelites:
1. Tõhusus:
- Otsingutulemused näitavad, et Bayesi optimeerimine on hüperparameetrite optimeerimiseks üldiselt tõhusam kui ruudustikuotsing.
- Grid Search hindab kõiki võimalikke hüperparameetrite kombinatsioone, mis võivad olla arvutuslikult kulukad, eriti suuremõõtmeliste otsinguruumide puhul.
- Seevastu Bayesi optimeerimine kasutab otsingu juhtimiseks tõenäosuslikku mudelit, keskendudes hüperparameetriruumi kõige lootustandvamatele piirkondadele, mistõttu on heade konfiguratsioonide leidmiseks vaja vähem hinnanguid.
2. Toimivus:
- Otsingutulemused viitavad sellele, et Bayesi optimeerimine võib mudeli lõpliku jõudluse (nt BLEU skoori) osas ületada ruudustikuotsingu.
- Selle põhjuseks on asjaolu, et Bayesi optimeerimine suudab tõhusamalt uurida hüperparameetrite ruumi ja leida paremini toimivaid konfiguratsioone võrreldes ammendava, kuid jäiga ruudustikuotsingu lähenemisviisiga.
3. Üldistamine:
- Otsingutulemustes mainitakse, et Bayesi optimeerimise leitud head hüperparameetrite konfiguratsioonid võivad võrreldes ruudustikuotsinguga paremini üldistada erinevates andmekogumites.
- Selle põhjuseks on asjaolu, et Bayesi optimeerimine suudab tabada hüperparameetrite ja mudeli jõudluse vahelisi alussuhteid, mis võivad olla paremini ülekantavad.
4. Keerukus:
- Bayesi optimeerimise rakendamine on üldiselt keerulisem kui ruudustikuotsing, kuna see nõuab otsingu juhtimiseks tõenäosusmudeli ja hankimisfunktsiooni loomist.
- Võrguotsing on seevastu lihtsam ja arusaadavam lähenemine, mida võib teatud juhtudel eelistada, eriti madalamõõtmeliste hüperparameetriliste ruumide puhul.
Kokkuvõttes näitavad otsingutulemused, et Bayesi optimeerimine on NMT-mudelites hüperparameetrite häälestamiseks tavaliselt tõhusam ja tulemuslikum kui võrguotsing, kuid selle rakendamisel on suurem keerukus. Valik kahe lähenemisviisi vahel võib sõltuda konkreetsest probleemist, hüperparameetrite ruumi suurusest ja olemasolevatest arvutusressurssidest.
Tsitaadid:[1] https://stackoverflow.com/questions/55849512/gridsearchcv-vs-bayesian-optimization
[2] http://cs.ndsu.edu/~siludwig/Publish/papers/CEC2021.pdf
[3] https://github.com/tensorflow/nmt/issues/484
[4] https://towardsdatascience.com/gridsearch-vs-randomizedsearch-vs-bayesiansearch-cfa76de27c6b?gi=3ed66c888683
[5] https://www.cs.jhu.edu/~kevinduh/t/kduh-proposal2017.pdf