Pemangkasan berat badan di WGAN dapat menyebabkan beberapa masalah:
1. Vanishing Gradients: Jika jendela kliping terlalu besar, hal ini dapat menyebabkan hilangnya gradien, yang dapat menyebabkan model gagal menyatu atau dilatih dengan lambat[1][2][4].
2. Konvergensi Lambat: Jika jendela kliping terlalu kecil, hal ini dapat menyebabkan konvergensi lambat, yang dapat menyebabkan model memerlukan waktu lama untuk dilatih[1][2][4].
3. Permukaan Nilai Patologis: Pemotongan beban dapat mengakibatkan permukaan nilai patologis bagi kritikus, yang dapat menyebabkan kinerja di bawah optimal[2].
4. Capacity Underuse: Menerapkan batasan k-Lipshitz melalui pemotongan bobot akan membuat kritikus bias terhadap fungsi yang lebih sederhana, yang dapat menyebabkan kurangnya penggunaan kapasitas model[2].
5. Pelatihan Tidak Stabil: Pemotongan beban dapat menyebabkan pelatihan tidak stabil, terutama ketika modelnya dalam atau memiliki banyak lapisan[1][2][4].
6. Kesulitan dalam Pelatihan: Pemotongan beban dapat mempersulit pelatihan model, terutama jika modelnya rumit atau memiliki banyak lapisan[1][2][4].
7. Kurangnya Kekokohan: Pemotongan bobot dapat membuat model menjadi kurang kokoh terhadap perubahan distribusi data atau arsitektur model[1][2][4].
Masalah ini dapat diatasi dengan menggunakan metode alternatif seperti penalti gradien, yang lebih efektif dalam menerapkan batasan Lipschitz dan meningkatkan stabilitas pelatihan WGAN[1][2][3][4].
Kutipan:
[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://ceur-ws.org/Vol-2563/aics_34.pdf
[4] https://blog.paperspace.com/wgans/
[5] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
bagaimana penalti gradien dibandingkan dengan pemotongan beban dalam hal stabilitas latihan
Penalti gradien di Wasserstein GANs (WGANs) menawarkan beberapa keunggulan dibandingkan pemotongan beban dalam hal stabilitas latihan:
1. Kapasitas Kurang Digunakan: Pemotongan bobot dapat menyebabkan kapasitas kurang digunakan, di mana kritikus mempelajari fungsi yang sangat sederhana karena batasan keras pada konstanta Lipschitz. Sebaliknya, penalti gradien memungkinkan kritikus mempelajari fungsi yang lebih kompleks sambil tetap memenuhi batasan Lipschitz.
2. Gradien Meledak dan Hilang: Interaksi antara batasan bobot dan fungsi penurunan beban dalam pemotongan beban dapat menyebabkan gradien meledak atau hilang, sehingga membuat proses pelatihan menjadi tidak stabil. Penalti gradien tidak mengalami masalah ini.
3. Permukaan Nilai Patologis: Pemotongan beban dapat mengakibatkan permukaan nilai patologis bagi kritikus, yang dapat menyebabkan kinerja di bawah optimal. Penalti gradien tidak menunjukkan perilaku ini.
4. Kekokohan: Penalti gradien lebih kuat terhadap pilihan arsitektur dan penyetelan hyperparameter dibandingkan dengan pemotongan bobot, sehingga memudahkan pelatihan WGAN.
5. Peningkatan Konvergensi: Penalti gradien dapat menghasilkan konvergensi yang lebih cepat dan kualitas sampel yang lebih baik dibandingkan dengan pemotongan bobot, seperti yang ditunjukkan pada makalah WGAN-GP asli.
Singkatnya, penalti gradien memberikan cara yang lebih stabil dan efektif untuk menerapkan batasan Lipschitz di WGAN, sehingga menghasilkan peningkatan stabilitas pelatihan, konvergensi, dan kualitas sampel dibandingkan dengan pemotongan beban. Penalti gradien mengatasi masalah utama yang terkait dengan pemotongan beban, menjadikannya metode pilihan untuk melatih WGAN.
Kutipan:[1] https://www.cs.toronto.edu/~bonner/courses/2022s/csc2547/papers/adversarial/background/improved-training-of-WGANs,-gulrajani,-nips2017.pdf
[2] https://proceedings.neurips.cc/paper_files/paper/2017/file/892c3b1c6dccd52936e27cbd0ff683d6-Paper.pdf
[3] https://towardsdatascience.com/demystified-wasserstein-gan-with-gradient-penalty-ba5e9b905ead
[4] https://stackoverflow.com/questions/58723838/if-we-can-clip-gradient-in-wgan-why-bother-with-wgan-gp
[5] https://datascience.stackexchange.com/questions/31077/wgan-is-too-slow-what-are-some-ways-to-tweak-for-speed-ups