Gewichtsclipping in WGAN's kan tot verschillende problemen leiden:
1. Verdwijnende gradiënten: wanneer het uitknipvenster te groot is, kan dit leiden tot verdwijnende gradiënten, waardoor het model niet kan convergeren of langzaam kan trainen[1][2][4].
2. Langzame convergentie: wanneer het clippingvenster te klein is, kan dit leiden tot langzame convergentie, waardoor het lang kan duren voordat het model is getraind[1][2][4].
3. Pathologische waardeoppervlakken: Weight clipping kan voor de criticus resulteren in pathologische waardeoppervlakken, wat kan leiden tot suboptimale prestaties[2].
4. Onderbenutting van capaciteit: Het implementeren van een k-Lipshitz-beperking via 'weight clipping' zorgt ervoor dat de criticus zich richt op veel eenvoudiger functies, wat kan leiden tot onderbenutting van de capaciteit van het model[2].
5. Onstabiele training: Gewichtsclipping kan leiden tot onstabiele training, vooral wanneer het model diep is of een groot aantal lagen heeft[1][2][4].
6. Moeilijkheden bij het trainen: Door het gewicht te beperken kan het lastig zijn om het model te trainen, vooral als het model complex is of uit veel lagen bestaat[1][2][4].
7. Gebrek aan robuustheid: Weight clipping kan het model minder robuust maken voor veranderingen in de gegevensdistributie of de modelarchitectuur[1][2][4].
Deze problemen kunnen worden verzacht door alternatieve methoden te gebruiken, zoals een gradiëntstraf, die effectiever is bij het afdwingen van de Lipschitz-beperking en het verbeteren van de trainingsstabiliteit van WGAN's [1][2][3][4].
Citaties:
[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://ceur-ws.org/Vol-2563/aics_34.pdf
[4] https://blog.paperspace.com/wgans/
[5] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
Hoe verhoudt de gradiëntstraf zich tot gewichtsclipping in termen van trainingsstabiliteit
De gradiëntstraf in Wasserstein GAN's (WGAN's) biedt verschillende voordelen ten opzichte van gewichtsclipping in termen van trainingsstabiliteit:
1. Capaciteitsonderbenutting: Gewichtsreductie kan leiden tot onderbenutting van de capaciteit, waarbij de criticus zeer eenvoudige functies leert vanwege de harde beperking van de Lipschitz-constante. De gradiëntstraf stelt de criticus daarentegen in staat complexere functies te leren terwijl hij nog steeds aan de Lipschitz-beperking voldoet.
2. Exploderende en verdwijnende gradiënten: De interactie tussen de gewichtsbeperking en de verliesfunctie bij het afvallen kan leiden tot exploderende of verdwijnende gradiënten, waardoor het trainingsproces instabiel wordt. De gradiëntboete heeft hier geen last van.
3. Pathologische waardeoppervlakken: Weight clipping kan resulteren in pathologische waardeoppervlakken voor de criticus, wat kan leiden tot suboptimale prestaties. De gradiëntstraf vertoont dit gedrag niet.
4. Robuustheid: De gradiëntstraf is robuuster voor architecturale keuzes en afstemming van hyperparameters in vergelijking met gewichtsclipping, waardoor het gemakkelijker wordt om WGAN's te trainen.
5. Verbeterde convergentie: De gradiëntstraf kan leiden tot snellere convergentie en betere monsterkwaliteit in vergelijking met gewichtsclipping, zoals weergegeven in het originele WGAN-GP-papier.
Samenvattend biedt de gradiëntstraf een stabielere en effectievere manier om de Lipschitz-beperking in WGAN's af te dwingen, wat leidt tot verbeterde trainingsstabiliteit, convergentie en monsterkwaliteit in vergelijking met gewichtsclipping. De gradiëntstraf richt zich op de belangrijkste problemen die verband houden met gewichtsreductie, waardoor het de voorkeursmethode is voor het trainen van WGAN's.
Citaties:[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://towardsdatascience.com/demystified-wasserstein-gan-with-gradient-penalty-ba5e9b905ead
[4] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
[5] https://datascience.stackexchange.com/questions/31077/wgan-is-too-slow-what-are-some-ways-to-tweak-for-speed-ups