Ořezávání hmotnosti ve WGAN může vést k několika problémům:
1. Mizející přechody: Když je ořezové okno příliš velké, může to vést k mizejícím přechodům, což může způsobit, že se model nepodaří konvergovat nebo trénovat pomalu[1][2][4].
2. Pomalá konvergence: Když je ořezové okno příliš malé, může to vést k pomalé konvergenci, což může způsobit, že se model trénuje dlouho[1][2][4].
3. Povrchy patologické hodnoty: Ořezávání váhy může mít za následek povrchy s patologickou hodnotou pro kritika, což může vést k neoptimálnímu výkonu[2].
4. Nevyužitá kapacita: Implementace k-Lipshitzova omezení prostřednictvím ořezávání hmotnosti vede kritika k mnohem jednodušším funkcím, což může vést k nedostatečnému využití kapacity modelu[2].
5. Nestabilní trénink: Ořezávání váhy může vést k nestabilnímu tréninku, zvláště když je model hluboký nebo má velký počet vrstev[1][2][4].
6. Obtížnost tréninku: Ořezávání závaží může ztížit trénování modelu, zvláště když je model složitý nebo má mnoho vrstev[1][2][4].
7. Nedostatek robustnosti: Ořezávání hmotnosti může způsobit, že model bude méně odolný vůči změnám v distribuci dat nebo architektuře modelu[1][2][4].
Tyto problémy lze zmírnit použitím alternativních metod, jako je penalizace gradientu, která je efektivnější při prosazování Lipschitzova omezení a zlepšování stability tréninku WGAN[1][2][3][4].
Citace:
[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://ceur-ws.org/Vol-2563/aics_34.pdf
[4] https://blog.paperspace.com/wgans/
[5] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
jak je gradientní penalizace ve srovnání s ořezáváním váhy z hlediska stability tréninku
Pokuta za gradient ve Wassersteinových GAN (WGAN) nabízí několik výhod oproti ořezávání váhy, pokud jde o stabilitu tréninku:
1. Nedostatečné využití kapacity: Ořezávání hmotnosti může vést k nedostatečnému využití kapacity, kdy se kritik naučí velmi jednoduché funkce kvůli tvrdému omezení Lipschitzovy konstanty. Na druhé straně gradientová penalizace umožňuje kritikovi naučit se složitější funkce a přitom stále uspokojovat Lipschitzovo omezení.
2. Explodující a mizející gradienty: Interakce mezi váhovým omezením a funkcí ztráty při snižování hmotnosti může vést k explozi nebo mizení gradientů, což činí tréninkový proces nestabilním. Gradientová penalizace tímto problémem netrpí.
3. Povrchy patologických hodnot: Ořezávání hmotnosti může mít za následek povrchy s patologickou hodnotou pro kritika, což může vést k neoptimálnímu výkonu. Pokuta za přechod toto chování nevykazuje.
4. Robustnost: Pokuta za gradient je odolnější vůči architektonickým volbám a ladění hyperparametrů ve srovnání s ořezáváním hmotnosti, což usnadňuje trénování WGAN.
5. Vylepšená konvergence: Pokuta za gradient může vést k rychlejší konvergenci a lepší kvalitě vzorku ve srovnání s oříznutím hmotnosti, jak je znázorněno v původním dokumentu WGAN-GP.
Stručně řečeno, gradientová penalizace poskytuje stabilnější a efektivnější způsob, jak vynutit Lipschitzovo omezení ve WGAN, což vede k lepší stabilitě tréninku, konvergenci a kvalitě vzorku ve srovnání s ořezáváním hmotnosti. Postih za gradient řeší klíčové problémy spojené s ořezáváním váhy, což z něj činí preferovanou metodu pro trénink WGAN.
Citace:[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://towardsdatascience.com/demystified-wasserstein-gan-with-gradient-penalty-ba5e9b905ead
[4] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
[5] https://datascience.stackexchange.com/questions/31077/wgan-is-too-slow-what-are-some-ways-to-tweak-for-speed-ups