Svara samazināšana WGAN var izraisīt vairākas problēmas:
1. Pazūdošie gradienti: ja izgriešanas logs ir pārāk liels, tas var izraisīt izzūdošus gradientus, kas var izraisīt modeļa neveiksmi saplūst vai lēnām trenēties[1][2][4].
2. Lēna konverģence: ja izgriešanas logs ir pārāk mazs, tas var izraisīt lēnu konverģenci, kā rezultātā modeļa apmācībai var būt nepieciešams ilgs laiks[1][2][4].
3. Patoloģisku vērtību virsmas: svara apgriešana var radīt patoloģiskas vērtības kritiķim, kas var novest pie neoptimālā veiktspējas[2].
4. Nepietiekama kapacitātes izmantošana: k-Lipshitz ierobežojuma ieviešana, izmantojot svara apgriešanu, kritiķi novirza uz daudz vienkāršākām funkcijām, kas var izraisīt modeļa jaudas nepietiekamu izmantošanu[2].
5. Nestabils treniņš: svara samazināšana var izraisīt nestabilu treniņu, īpaši, ja modelis ir dziļš vai tam ir daudz slāņu[1][2][4].
6. Apmācības grūtības: svara samazināšana var apgrūtināt modeļa apmācību, īpaši, ja modelis ir sarežģīts vai tam ir daudz slāņu[1][2][4].
7. Noturības trūkums: svara samazināšana var padarīt modeli mazāk izturīgu pret izmaiņām datu sadalījumā vai modeļa arhitektūrā[1][2][4].
Šīs problēmas var mazināt, izmantojot alternatīvas metodes, piemēram, gradienta sodu, kas ir efektīvāks Lipšica ierobežojuma izpildē un WGAN apmācības stabilitātes uzlabošanā[1][2][3][4].
Citāts:
[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://ceur-ws.org/Vol-2563/aics_34.pdf
[4] https://blog.paperspace.com/wgans/
[5] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
Kā gradienta sods ir salīdzinājumā ar svara apgriešanu treniņa stabilitātes ziņā
Gradienta sods Wasserstein GAN (WGAN) nodrošina vairākas priekšrocības salīdzinājumā ar svara apgriešanu treniņa stabilitātes ziņā:
1. Kapacitātes nepietiekama izmantošana: svara samazināšana var izraisīt nepietiekamu jaudas izmantošanu, kur kritiķis apgūst ļoti vienkāršas funkcijas Lipšica konstantes stingrā ierobežojuma dēļ. No otras puses, gradienta sods ļauj kritiķim apgūt sarežģītākas funkcijas, vienlaikus izpildot Lipšica ierobežojumu.
2. Exploding and Manishing Gradients: Mijiedarbība starp svara ierobežojumu un svara samazināšanas funkciju var izraisīt slīpumu eksploziju vai izzušanu, padarot treniņu procesu nestabilu. Gradienta sods no šīs problēmas necieš.
3. Patoloģisku vērtību virsmas: svara apgriešana var radīt patoloģiskas vērtības kritiķim, kas var novest pie neoptimālā veiktspējas. Gradienta sods neliecina par šādu rīcību.
4. Noturība: gradienta sods ir izturīgāks pret arhitektūras izvēli un hiperparametru regulēšanu, salīdzinot ar svara apgriešanu, tādējādi atvieglojot WGAN apmācību.
5. Uzlabota konverģence: gradienta sods var nodrošināt ātrāku konverģenci un labāku paraugu kvalitāti, salīdzinot ar svara izgriešanu, kā parādīts oriģinālajā WGAN-GP dokumentā.
Rezumējot, gradienta sods nodrošina stabilāku un efektīvāku veidu, kā ieviest Lipšica ierobežojumu WGAN, tādējādi uzlabojot treniņu stabilitāti, konverģenci un izlases kvalitāti, salīdzinot ar svara apgriešanu. Gradienta sods risina galvenās problēmas, kas saistītas ar svara apgriešanu, padarot to par vēlamo metodi WGAN apmācībai.
Citāts:[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://towardsdatascience.com/demystified-wasserstein-gan-with-gradient-penalty-ba5e9b905ead
[4] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
[5] https://datascience.stackexchange.com/questions/31077/wgan-is-too-slow-what-are-some-ways-to-tweak-for-speed-ups