El recorte de peso en las WGAN puede provocar varios problemas:
1. Gradientes que desaparecen: cuando la ventana de recorte es demasiado grande, puede provocar que los gradientes desaparezcan, lo que puede provocar que el modelo no converja o se entrene lentamente[1][2][4].
2. Convergencia lenta: cuando la ventana de recorte es demasiado pequeña, puede provocar una convergencia lenta, lo que puede provocar que el modelo tarde mucho en entrenarse[1][2][4].
3. Superficies de valor patológico: el recorte de peso puede dar lugar a superficies de valor patológico para el crítico, lo que puede conducir a un rendimiento subóptimo[2].
4. Infrautilización de capacidad: La implementación de una restricción de k-Lipshitz mediante recorte de peso inclina al crítico hacia funciones mucho más simples, lo que puede llevar a una infrautilización de la capacidad del modelo[2].
5. Entrenamiento inestable: el recorte de peso puede provocar un entrenamiento inestable, especialmente cuando el modelo es profundo o tiene una gran cantidad de capas[1][2][4].
6. Dificultad de entrenamiento: el recorte de peso puede dificultar el entrenamiento del modelo, especialmente cuando el modelo es complejo o tiene muchas capas[1][2][4].
7. Falta de robustez: el recorte de peso puede hacer que el modelo sea menos robusto ante cambios en la distribución de datos o la arquitectura del modelo[1][2][4].
Estos problemas se pueden mitigar mediante el uso de métodos alternativos, como la penalización de gradiente, que es más eficaz para hacer cumplir la restricción de Lipschitz y mejorar la estabilidad del entrenamiento de las WGAN[1][2][3][4].
Citas:
[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://ceur-ws.org/Vol-2563/aics_34.pdf
[4] https://blog.paperspace.com/wgans/
[5] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
¿Cómo se compara la penalización de gradiente con el recorte de peso en términos de estabilidad del entrenamiento?
La penalización de gradiente en las GAN de Wasserstein (WGAN) ofrece varias ventajas sobre el recorte de peso en términos de estabilidad del entrenamiento:
1. Infrautilización de la capacidad: la reducción de peso puede llevar a una infrautilización de la capacidad, donde el crítico aprende funciones muy simples debido a la estricta restricción de la constante de Lipschitz. La penalización de gradiente, por otro lado, permite al crítico aprender funciones más complejas sin dejar de satisfacer la restricción de Lipschitz.
2. Gradientes explosivos y que desaparecen: la interacción entre la restricción de peso y la función de pérdida en el recorte de peso puede provocar gradientes explosivos o que desaparecen, lo que hace que el proceso de entrenamiento sea inestable. La penalización de gradiente no sufre este problema.
3. Superficies de valor patológico: el recorte de peso puede dar lugar a superficies de valor patológico para el crítico, lo que puede conducir a un rendimiento subóptimo. La penalización de gradiente no presenta este comportamiento.
4. Robustez: la penalización de gradiente es más sólida para las opciones arquitectónicas y el ajuste de hiperparámetros en comparación con el recorte de peso, lo que facilita el entrenamiento de WGAN.
5. Convergencia mejorada: la penalización del gradiente puede conducir a una convergencia más rápida y una mejor calidad de la muestra en comparación con el recorte de peso, como se muestra en el artículo original de WGAN-GP.
En resumen, la penalización de gradiente proporciona una forma más estable y eficaz de aplicar la restricción de Lipschitz en las WGAN, lo que mejora la estabilidad del entrenamiento, la convergencia y la calidad de la muestra en comparación con el recorte de peso. La penalización de gradiente aborda los problemas clave asociados con el recorte de peso, lo que lo convierte en el método preferido para entrenar WGAN.
Citas:[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://towardsdatascience.com/demystified-wasserstein-gan-with-gradient-penalty-ba5e9b905ead
[4] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
[5] https://datascience.stackexchange.com/questions/31077/wgan-is-too-slow-what-are-some-ways-to-tweak-for-speed-ups