Il ritaglio del peso nei WGAN può portare a diversi problemi:
1. Gradienti evanescenti: quando la finestra di ritaglio è troppo grande, può portare a gradienti evanescenti, che possono causare la mancata convergenza o l'addestramento lento del modello[1][2][4].
2. Convergenza lenta: quando la finestra di ritaglio è troppo piccola, può portare a una convergenza lenta, che può far sì che il modello impieghi molto tempo per l'addestramento[1][2][4].
3. Superfici di valore patologiche: il ritaglio del peso può comportare superfici di valore patologiche per il critico, che possono portare a prestazioni non ottimali[2].
4. Sottoutilizzo della capacità: l'implementazione di un vincolo k-Lipshitz tramite il ritaglio del peso spinge il critico verso funzioni molto più semplici, il che può portare a un sottoutilizzo della capacità del modello[2].
5. Allenamento instabile: il ritaglio del peso può portare a un addestramento instabile, soprattutto quando il modello è profondo o ha un numero elevato di strati[1][2][4].
6. Difficoltà nell'addestramento: il ritaglio del peso può rendere difficile l'addestramento del modello, soprattutto quando il modello è complesso o ha molti strati[1][2][4].
7. Mancanza di robustezza: il ritaglio del peso può rendere il modello meno robusto ai cambiamenti nella distribuzione dei dati o nell'architettura del modello[1][2][4].
Questi problemi possono essere mitigati utilizzando metodi alternativi come la penalità del gradiente, che è più efficace nel far rispettare il vincolo di Lipschitz e migliorare la stabilità dell'addestramento dei WGAN [1] [2] [3] [4].
Citazioni:
[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/ background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://ceur-ws.org/Vol-2563/aics_34.pdf
[4] https://blog.paperspace.com/wgans/
[5] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
come si confronta la penalità del gradiente con il ritaglio del peso in termini di stabilità dell'allenamento
La penalità del gradiente nei Wasserstein GAN (WGAN) offre numerosi vantaggi rispetto al ritaglio del peso in termini di stabilità dell'allenamento:
1. Sottoutilizzo della capacità: il ridimensionamento del peso può portare a un sottoutilizzo della capacità, in cui il critico apprende funzioni molto semplici a causa del rigido vincolo sulla costante di Lipschitz. La penalità del gradiente, d'altro canto, consente al critico di apprendere funzioni più complesse pur soddisfacendo il vincolo di Lipschitz.
2. Gradienti esplosivi e sfumati: l'interazione tra il vincolo di peso e la funzione di perdita nel ritaglio del peso può portare a gradienti esplosivi o sfumati, rendendo instabile il processo di allenamento. La penalità gradiente non soffre di questo problema.
3. Superfici di valore patologiche: il ritaglio del peso può comportare superfici di valore patologiche per il critico, che possono portare a prestazioni non ottimali. La penalità gradiente non presenta questo comportamento.
4. Robustezza: la penalità del gradiente è più robusta per le scelte architettoniche e l'ottimizzazione degli iperparametri rispetto al ritaglio del peso, rendendo più semplice il training dei WGAN.
5. Convergenza migliorata: la penalità del gradiente può portare a una convergenza più rapida e a una migliore qualità del campione rispetto al ritaglio del peso, come mostrato nel documento WGAN-GP originale.
In sintesi, la penalità del gradiente fornisce un modo più stabile ed efficace per applicare il vincolo di Lipschitz nei WGAN, portando a una migliore stabilità dell'addestramento, convergenza e qualità del campione rispetto al ritaglio del peso. La penalità del gradiente risolve i problemi chiave associati al ritaglio del peso, rendendolo il metodo preferito per l'addestramento dei WGAN.
Citazioni:[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/ background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://towardsdatascience.com/demystified-wasserstein-gan-with-gradient-penalty-ba5e9b905ead
[4] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
[5] https://datascience.stackexchange.com/questions/31077/wgan-is-too-slow-what-are-some-ways-to-tweak-for-speed-ups