Ağırlık kırpma, Wasserstein mesafe metriğinin gerektirdiği Lipschitz süreklilik kısıtlamasını uygulamak için orijinal olarak Wasserstein GANS'ta (WGAN'lar) getirilen bir tekniktir. Hesaplamalı sadeliğe ve bazı ilk başarılara sahip olsa da, WGAN'larda ağırlık kırpma, eğitim istikrarı, model kapasitesi ve genel performansı etkileyen birkaç önemli sorun sunar.
Ağırlık kırpma ile ilgili birincil problemlerden biri, modelin ağırlıkları üzerinde sabit bir aralıkta keserek sert bir kısıtlama görevi görmesidir. Bu kısıtlayıcı operasyon, eleştirmeni (geleneksel GAN'larda ayrımcı) aşırı basit işlevleri öğrenmeye yönlendirerek karmaşık veri dağılımlarını etkili bir şekilde modelleme kapasitesini sınırlar. Kırpma, ağırlıkları küçük bir kutuda kalmaya zorlar, bu da eleştirmenlerin daha yüksek dereceli anları ve verilerin daha ince ayrıntılarını yakalamamasına yol açar. Bu kısıtlama, eleştirmenin işlevinin kararlı Gan eğitimi için gerekli olan wasserstein mesafesini doğru bir şekilde tahmin etmek için çok basit hale gelmesine neden olabilir.
İlgili bir diğer konu, ağırlık kırpmanın neden olduğu eğitim istikrarsızlığıdır. Kırpma aralığının dikkatlice ayarlanması gerekir: Çok büyük ayarlanmışsa, Lipschitz kısıtlaması yetersiz uygulanır, potansiyel olarak dengesiz eğitim ve mod çökmesine yol açar; Çok küçük ayarlanırsa, gradyanlar etkili güncellemeler için yok olabilir veya çok küçük olabilir, model öğrenmeyi bozar. Yok olan gradyanlar tipik olarak eleştirmen ağırlıkları aşırı düşük değerlere, özellikle derin ağlara sahip mimarilerde, parti normalizasyonu veya tekrarlayan bileşenlerde kırpıldığında ortaya çıkar. Bu gradyan yok edici problemi, ayrımcı ağırlıklarının dar bir aralığa kısıtlanması ve eleştirmenin eğitim sırasında jeneratöre anlamlı geri bildirim sağlama yeteneğini azaltması nedeniyle ortaya çıkar.
Ağırlık kırpma ayrıca patolojik ağırlık dağılımlarına yol açar. Ampirik olarak, birçok eleştirmen ağırlığı, öğrenilen ağırlıkların ifade ve çeşitliliğini kısıtlayan kırpma aralığının sınırlarında birikme eğilimindedir. Bu doygunluk etkisi optimizasyonu engeller, çünkü gradyan güncellemeleri ağırlıkları tekrar tekrar kırpma sınırlarına doğru iterek verimsiz parametre araştırmalarına ve daha yavaş yakınsamaya neden olur. Ek olarak, ağırlık kırpma optimizasyon manzarasını bozar, bu da gradyanlar ve genel eleştirmen kaybı yüzeyinin daha az pürüzsüz ve gradyan tabanlı yöntemlerle gezinmesi daha zor hale geldiği anlamına gelir.
Bu sorunlar nedeniyle, ağırlık kırpma çok derin eleştirmen mimarilerini güvenilir bir şekilde eğitmeyi zorlaştırabilir. Kırpma ile uygulanan sert kısıtlama, daha büyük ve daha karmaşık ağ mimarilerine iyi ölçeklenmez. Eleştirmen içinde toplu normalizasyon gibi ortak tekniklerle bile, derin Wgan eleştirmenlerinin ağırlık kırpma uygulandığında genellikle birleşmeye mücadele ettiği gözleniyor. Bu sınırlamalar, karmaşık gerçek dünya veri dağılımlarını modellerken modelin esnekliğini ve kapasitesini azaltır, bu da genellikle kötü örnek kalitesi veya başarısız eğitim ile sonuçlanır.
Orijinal WGAN gazeteleri ve sonraki çalışmalar, ağırlık kırpmanın, özellikle yüksek boyutlu veya karmaşık veri kümeleri için eğitimde istenmeyen davranışlara yol açabileceğini kabul etmiştir. Yöntem, eleştirmenin daha basit işlevlere çökmesine neden olarak üretilen numunelerin kalitesini ve çeşitliliğini azaltabilir. Bazı araştırmalar, ağırlık kırpmanın eleştirmenleri sabit gradyanlara veya önemli ölçüde azaltılmış gradyan normu ile işlevlere yönlendirdiğini, bu da neredeyse her yerde birine yakın bir gradyan normuna sahip olmanın ideal bir normu ile çeliştiğini göstermektedir.
Bu dezavantajları ele almak için, en önemlisi gradyan cezası (WGAN-GP) yöntemi olmak üzere ağırlık kupürüne alternatifler önerilmiştir. Sert kırpmanın aksine, gradyan cezası, gradyan normunun birinden sapmasını cezalandırarak yumuşak bir kısıtlama getirir, bu da daha pürüzsüz ve daha gerçekçi eleştirmen işlevlerini teşvik eder. Bu ceza, ağırlıkların katı hapsedilmesinden kaçınarak ve daha istikrarlı ve etkileyici eleştirmen öğrenimine izin veren kayıp fonksiyonunda ekstra bir terim olarak eklenir. Gradyan ceza tabanlı yaklaşımlar, ağırlık kırpmaya kıyasla eğitim istikrarı, örnek kalitesi ve yakınsama hızını önemli ölçüde iyileştirir.
Özetle, WGAN'larda ağırlık kırpma ile ilgili ana sorunlar şunları içerir:
- Eleştirmen karmaşıklığını sınırlayan ve aşırı basit ayrımcılara yol açan sert bir kısıtlama.
- Uygun olmayan kırpma aralığı seçiminden eğitim istikrarsızlığı, kaybolma veya patlayan gradyanlara neden olur.
- Kırpma sınırlarında doyurucu birçok ağırlık ile patolojik ağırlık dağılımları.
- Çarpık kayıp manzaraları ve gradyan bilgileri nedeniyle verimsiz optimizasyon.
- Derin eleştirmen mimarilerle zayıf ölçeklenebilirlik ve yakınsama problemleri.
- Karmaşık verileri modellerken üretilen numunelerin daha düşük kalitesi.
- Genel sınırlı ifade ve uygun Lipschitz sürekliliğini esnek bir şekilde korumaması.