Як байєсовська оптимізація порівнюється з Grid Search для NMT

На основі результатів пошуку наведено порівняння байєсівської оптимізації та пошуку сітки для налаштування гіперпараметрів у моделях нейромашинного перекладу (NMT):

1. Ефективність:
- Результати пошуку показують, що байєсовська оптимізація загалом ефективніша за оптимізацію за гіперпараметрами, ніж пошук за сіткою.
- Grid Search оцінює всі можливі комбінації гіперпараметрів, що може бути обчислювально дорогим, особливо для просторів пошуку великої розмірності.
- Навпаки, байєсовська оптимізація використовує імовірнісну модель для керування пошуком, зосереджуючись на найбільш перспективних областях простору гіперпараметрів, таким чином вимагаючи менше оцінок для пошуку хороших конфігурацій.

2. Продуктивність:
- Результати пошуку свідчать про те, що байєсовська оптимізація може перевершити Grid Search з точки зору кінцевої продуктивності моделі, наприклад оцінки BLEU.
- Це пояснюється тим, що байєсовська оптимізація може ефективніше досліджувати простір гіперпараметрів і знаходити ефективніші конфігурації порівняно з вичерпним, але жорстким підходом пошуку сітки.

3. Узагальнення:
- У результатах пошуку згадується, що хороші конфігурації гіперпараметрів, знайдені байєсовською оптимізацією, можуть краще узагальнювати різні набори даних порівняно з пошуком у сітці.
- Це пояснюється тим, що байєсовська оптимізація може фіксувати базові зв’язки між гіперпараметрами та продуктивністю моделі, що може бути легше передано.

4. Складність:
- Реалізація байєсівської оптимізації, як правило, є складнішою, ніж пошук у сітці, оскільки вимагає побудови імовірнісної моделі та функції збору для керування пошуком.
- Пошук по сітці, з іншого боку, є більш простим і зрозумілим підходом, який може бути кращим у деяких випадках, особливо для просторів гіперпараметрів низької розмірності.

Підсумовуючи, результати пошуку вказують на те, що байєсівська оптимізація зазвичай ефективніша та результативніша, ніж пошук у сітці для налаштування гіперпараметрів у моделях NMT, але вона має більшу складність реалізації. Вибір між двома підходами може залежати від конкретної проблеми, розміру простору гіперпараметрів і доступних обчислювальних ресурсів.

цитати:
[1] https://stackoverflow.com/questions/55849512/gridsearchcv-vs-bayesian-optimization
[2] http://cs.ndsu.edu/~siludwig/Publish/papers/CEC2021.pdf
[3] https://github.com/tensorflow/nmt/issues/484
[4] https://towardsdatascience.com/gridsearch-vs-randomizedsearch-vs-bayesiansearch-cfa76de27c6b?gi=3ed66c888683
[5] https://www.cs.jhu.edu/~kevinduh/t/kduh-proposal2017.pdf