Svorio kirpimas WGAN gali sukelti keletą problemų:
1. Nykstantys gradientai: kai iškirpimo langas yra per didelis, gali išnykti gradientai, dėl kurių modelis gali nesusilieti arba lėtai treniruotis[1][2][4].
2. Lėta konvergencija: kai iškirpimo langas yra per mažas, tai gali sukelti lėtą konvergenciją, dėl kurios modelio lavinimas gali užtrukti ilgai[1][2][4].
3. Patologinės vertės paviršiai: sumažinus svorį, kritikui gali atsirasti patologinių verčių paviršių, o tai gali lemti neoptimalius rezultatus[2].
4. Nepanaudota talpa: k-Lipshitz apribojimo įgyvendinimas apkarpant svorį kritikuoja daug paprastesnių funkcijų, o tai gali lemti nepakankamai išnaudotą modelio pajėgumą[2].
5. Nestabili treniruotė: svorio kirpimas gali sukelti nestabilų treniruotę, ypač kai modelis yra gilus arba turi daug sluoksnių[1][2][4].
6. Treniravimosi sunkumai: dėl svorio kirpimo gali būti sunku treniruoti modelį, ypač kai modelis yra sudėtingas arba turi daug sluoksnių[1][2][4].
7. Tvirtumo trūkumas: sumažinus svorį, modelis gali būti mažiau atsparus duomenų paskirstymo arba modelio architektūros pokyčiams[1][2][4].
Šias problemas galima sušvelninti naudojant alternatyvius metodus, pvz., gradiento baudą, kuri yra veiksmingesnė įgyvendinant Lipschitz apribojimą ir gerinant WGAN treniruočių stabilumą[1][2][3][4].
Citatos:
[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://ceur-ws.org/Vol-2563/aics_34.pdf
[4] https://blog.paperspace.com/wgans/
[5] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
Kuo gradiento bauda skiriasi nuo svorio kirpimo treniruotės stabilumo požiūriu
Gradiento bauda Wasserstein GAN (WGAN) suteikia keletą pranašumų, palyginti su svorio kirpimu, atsižvelgiant į treniruočių stabilumą:
1. Nepanaudota talpa: svorio sumažinimas gali lemti nepakankamą pajėgumų panaudojimą, kai kritikas išmoksta labai paprastas funkcijas dėl griežto Lipšico konstantos apribojimo. Kita vertus, gradiento bausmė leidžia kritikui išmokti sudėtingesnių funkcijų, tuo pat metu tenkinant Lipšico apribojimą.
2. Sprogstantys ir nykstantys nuolydžiai: svorio apribojimo ir svorio mažinimo funkcijos sąveika gali lemti nuolydžių sprogimą arba išnykimą, todėl treniruočių procesas tampa nestabilus. Gradiento bauda dėl šios problemos neturi įtakos.
3. Patologinės vertės paviršiai: sumažinus svorį, kritikui gali atsirasti patologinių verčių paviršių, o tai gali lemti neoptimalius rezultatus. Gradiento nuobauda tokio elgesio neparodo.
4. Tvirtumas: gradiento bauda yra patikimesnė architektūriniams pasirinkimams ir hiperparametrų derinimui, palyginti su svorio kirpimu, todėl lengviau treniruoti WGAN.
5. Geresnė konvergencija: gradiento bauda gali lemti greitesnę konvergenciją ir geresnę mėginio kokybę, palyginti su svorio iškirpimu, kaip parodyta originaliame WGAN-GP dokumente.
Apibendrinant galima pasakyti, kad gradiento bausmė yra stabilesnis ir veiksmingesnis būdas įgyvendinti Lipschitz apribojimą WGAN, todėl gerėja treniruočių stabilumas, konvergencija ir mėginių kokybė, palyginti su svorio kirpimu. Gradiento nuobauda sprendžia pagrindines problemas, susijusias su svorio kirpimu, todėl tai yra tinkamiausias būdas treniruoti WGAN.
Citatos:[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://towardsdatascience.com/demystified-wasserstein-gan-with-gradient-penalty-ba5e9b905ead
[4] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
[5] https://datascience.stackexchange.com/questions/31077/wgan-is-too-slow-what-are-some-ways-to-tweak-for-speed-ups