La coupure de poids dans les WGAN peut entraîner plusieurs problèmes :
1. Dégradés de disparition : lorsque la fenêtre de découpage est trop grande, cela peut entraîner la disparition des gradients, ce qui peut empêcher le modèle de converger ou de s'entraîner lentement[1][2][4].
2. Convergence lente : lorsque la fenêtre de découpage est trop petite, cela peut entraîner une convergence lente, ce qui peut prendre beaucoup de temps à entraîner le modèle[1][2][4].
3. Surfaces de valeur pathologique : un écrêtage de poids peut entraîner des surfaces de valeur pathologiques pour le critique, ce qui peut conduire à des performances sous-optimales[2].
4. Sous-utilisation de la capacité : l'implémentation d'une contrainte k-Lipshitz via un écrêtage de poids biaise la critique vers des fonctions beaucoup plus simples, ce qui peut conduire à une sous-utilisation de la capacité du modèle[2].
5. Entraînement instable : un écrêtage de poids peut conduire à un entraînement instable, en particulier lorsque le modèle est profond ou comporte un grand nombre de couches[1][2][4].
6. Difficulté d'entraînement : la réduction du poids peut rendre difficile l'entraînement du modèle, en particulier lorsque le modèle est complexe ou comporte plusieurs couches[1][2][4].
7. Manque de robustesse : l'écrêtage des poids peut rendre le modèle moins robuste aux changements dans la distribution des données ou dans l'architecture du modèle[1][2][4].
Ces problèmes peuvent être atténués en utilisant des méthodes alternatives telles que la pénalité de gradient, qui est plus efficace pour appliquer la contrainte Lipschitz et améliorer la stabilité de la formation des WGAN[1][2][3][4].
Citations :
[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://ceur-ws.org/Vol-2563/aics_34.pdf
[4] https://blog.paperspace.com/wgans/
[5] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
Comment la pénalité de gradient se compare-t-elle à la coupure de poids en termes de stabilité d'entraînement
La pénalité de gradient dans les GAN de Wasserstein (WGAN) offre plusieurs avantages par rapport à l'écrêtage de poids en termes de stabilité de l'entraînement :
1. Sous-utilisation de la capacité : l'écrêtage du poids peut conduire à une sous-utilisation de la capacité, où le critique apprend des fonctions très simples en raison de la contrainte stricte sur la constante de Lipschitz. La pénalité de gradient, en revanche, permet au critique d'apprendre des fonctions plus complexes tout en satisfaisant la contrainte de Lipschitz.
2. Dégradés explosifs et disparaissants : L'interaction entre la contrainte de poids et la fonction de perte dans la coupure de poids peut conduire à des gradients explosifs ou disparus, rendant le processus d'entraînement instable. La pénalité de gradient ne souffre pas de ce problème.
3. Surfaces de valeur pathologique : Un écrêtage de poids peut entraîner des surfaces de valeur pathologique pour le critique, ce qui peut conduire à des performances sous-optimales. La pénalité de gradient ne présente pas ce comportement.
4. Robustesse : la pénalité de gradient est plus robuste aux choix architecturaux et au réglage des hyperparamètres par rapport à l'écrêtage de poids, ce qui facilite la formation des WGAN.
5. Convergence améliorée : La pénalité de gradient peut conduire à une convergence plus rapide et à une meilleure qualité d'échantillon par rapport à l'écrêtage du poids, comme le montre l'article original du WGAN-GP.
En résumé, la pénalité de gradient fournit un moyen plus stable et plus efficace d'appliquer la contrainte Lipschitz dans les WGAN, conduisant à une amélioration de la stabilité de l'entraînement, de la convergence et de la qualité des échantillons par rapport à l'écrêtage du poids. La pénalité de gradient résout les problèmes clés associés à la réduction du poids, ce qui en fait la méthode privilégiée pour entraîner les WGAN.
Citations :[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://towardsdatascience.com/demystified-wasserstein-gan-with-gradient-penalty-ba5e9b905ead
[4] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
[5] https://datascience.stackexchange.com/questions/31077/wgan-is-too-slow-what-are-some-ways-to-tweak-for-speed-ups