Pagrindiniai Adam ir SGD naudojimo RNN-GAN skirtumai yra šie:
1. Adaptyvaus mokymosi rodikliai:
- Adomas kiekvienam parametrui naudoja adaptyvius mokymosi tempus, pakoreguodamas žingsnio dydį pagal apskaičiuotą pirmąjį ir antrąjį gradientų momentus.- SGD visiems parametrams naudoja fiksuotą mokymosi greitį, dėl kurio gali sulėtėti konvergencija ir treniruotės ne tokios stabilios.
2. Pagreitis:
- Adamas apima pagreitį, kuris padeda modeliui greičiau ir tvirtiau suartėti.- SGD neapima impulso, dėl kurio gali sulėtėti konvergencija ir ne toks tvirtas mokymas.
3. Sunkus triukšmas:
- Adomas yra atsparesnis stochastiniam nuolydžiui, kuris gali atsirasti atliekant tam tikras užduotis, pvz., dėmesio modelius.- SGD yra mažiau atsparus stipriam triukšmui ir tokiais atvejais gali prastai suartėti.
4. Konvergencija:
- Adomas linkęs susilieti greičiau ir patikimiau nei SGD, ypač atliekant užduotis, kuriose triukšmas stochastiniuose gradientuose yra labai didelis.- SGD tokiais atvejais gali suartėti lėčiau ir mažiau patikimai nei Adomas.
5. Hiperparametrų derinimas:
- Adam reikalauja mažiau hiperparametrų derinimo nei SGD, nes jis prisitaiko prie besikeičiančio mokymosi greičio ir impulso.- SGD reikia daugiau hiperparametrų derinimo, nes reikia atidžiai nustatyti fiksuotą mokymosi greitį ir pagreitį.
6. Našumas:
- Adomas yra linkęs geriau nei SGD atlikti užduotis, kuriose triukšmas stochastiniuose gradientuose yra stiprus, pavyzdžiui, dėmesio modeliai.- SGD yra linkęs geriau nei Adomas atlikti užduotis, kuriose stochastinių gradientų triukšmas yra gerai koncentruotas, pavyzdžiui, „ImageNet“ treniruotėse.
7. Tvirtumas:
- Adam yra atsparesnis triukšmingiems duomenims ir gali geriau valdyti stiprų triukšmą nei SGD.- SGD yra mažiau atsparus triukšmingiems duomenims ir gali prastai konverguoti esant dideliam triukšmui.
8. Stabilumas:
– Adomas yra stabilesnis nei SGD, nes prisitaiko prie besikeičiančio mokymosi greičio ir tempo.- SGD gali būti mažiau stabilus nei Adomas, ypač atliekant užduotis, kuriose triukšmas stochastiniuose gradientuose yra stiprus.
9. Ansamblio metodai:
- Adam gali būti naudojamas ansamblio metoduose, siekiant pagerinti modelio veikimą ir tvirtumą.- SGD taip pat gali būti naudojamas ansamblio metoduose, tačiau gali prireikti kruopštesnio hiperparametrų derinimo.
10. Programos derinimas:
– Optimalūs „Adam“ ir „SGD“ hiperparametrų nustatymai gali skirtis priklausomai nuo konkrečios naudojamos programos ir duomenų rinkinio.- Norint nustatyti geriausią hiperparametro konfigūraciją tam tikrai RNN-GAN užduočiai, reikia kruopščiai eksperimentuoti ir įvertinti.
Apibendrinant galima pasakyti, kad Adamas ir SGD yra veiksmingi RNN-GAN optimizatoriai, tačiau jie turi skirtingas stipriąsias ir silpnąsias puses. „Adam“ yra atsparesnis stipriam triukšmui ir yra linkęs greičiau ir patikimiau susilieti, o SGD yra atsparesnis gerai koncentruotam triukšmui ir geriau atlieka užduotis, kuriose triukšmas yra gerai koncentruotas.
Citatos:[1] https://www.researchgate.net/figure/Performance-of-the-RNN-with-ADAM-and-SGD-optimizers_tbl2_355371680
[2] https://stackoverflow.com/questions/45655156/why-does-neural-net-optimizer-change-from-sgd-to-adam-lead-to-massive-decrease-i
[3] https://datascience.stackexchange.com/questions/30344/why-not-always-use-the-adam-optimization-technique
[4] https://openreview.net/pdf?id=SJx37TEtDH
[5] https://www.researchgate.net/publication/321963357_Improving_Generalization_Performance_by_Switching_from_Adam_to_SGD