Painonleikkaus on Wasserstein Gansissa alun perin käyttöön otettu tekniikka, joka valvoo Wassersteinin etäisyysmittarin edellyttämän Lipschitzin jatkuvuusrajoituksen. Vaikka WGAN: ien painonleikkaus on laskennallinen yksinkertaisuus ja jonkin verran alkuperäistä menestystä, esittelee useita merkittäviä kysymyksiä, jotka vaikuttavat koulutuksen vakavuuteen, mallin kapasiteettiin ja yleiseen suorituskykyyn.
Yksi painonleikkauksen ensisijaisista ongelmista on, että se toimii kovan rajoituksena mallin painoille katkaisemalla ne kiinteällä alueella. Tämä rajoittava operaatio vääristää kriitikkoa (syrjivä perinteisissä Gansissa) kohti oppimista liian yksinkertaisia toimintoja, rajoittaen sen kykyä mallintaa monimutkaisia tiedonjakeluja tehokkaasti. Leikkausjoukot painot pysyäkseen pienessä laatikossa, mikä johtaa usein siihen, että kriitikko ei pysty kaappaamaan korkeamman asteen hetkiä ja tietojen hienompia yksityiskohtia. Tämä rajoitus voi aiheuttaa kriitikon toiminnasta liian yksinkertaista arvioidakseen Wassersteinin etäisyyden tarkasti, mikä on välttämätöntä vakaassa GAN -koulutuksessa.
Toinen asiaan liittyvä asia on painon leikkauksen aiheuttama koulutuksen epävakaus. Leikkausalue on viritettävä huolellisesti: Jos se on asetettu liian suureksi, Lipschitz -rajoitus on riittämättömästi pakotettu, mikä johtaa mahdollisesti epävakaaseen harjoitteluun ja moodin romahdukseen; Jos asettuu liian pieniksi, kaltevuudet voivat kadota tai tulla liian pieniksi tehokkaiden päivitysten kannalta, mallin oppimisen heikentämiseksi. Kauantumisgradientit tapahtuvat tyypillisesti, kun kriitikkopainot on leikattu liian alhaiseen arvoon, etenkin arkkitehtuureissa, joissa on syviä verkkoja, ei erän normalisointia tai toistuvia komponentteja. Tämä gradientin katoamisongelma syntyy, koska syrjivän painot rajoittuvat kapeaan alueelle, mikä vähentää kriitikon kykyä antaa merkityksellistä palautetta generaattorille koulutuksen aikana.
Painonleikkaus johtaa myös patologisiin painonjakoihin. Empiirisesti monilla kriitikkopainoilla on taipumus kerääntyä leikkausalueen rajoihin, mikä rajoittaa opittujen painojen ilmaisemista ja monimuotoisuutta. Tämä kylläisyysvaikutus haittaa optimointia, koska gradienttipäivitykset työntävät painoja kohti leikkausrajoja toistuvasti, aiheuttaen tehottoman parametrien etsintää ja hitaampaa lähentymistä. Lisäksi painon leikkaus vääristää optimointimaisemaa, mikä tarkoittaa, että gradientit ja yleinen kriitikkojen häviöpinta muuttuu vähemmän sileäksi ja vaikeammaksi navigoida gradienttipohjaisilla menetelmillä.
Näiden kysymysten vuoksi painon leikkaaminen voi vaikeuttaa erittäin syvien kriitikkoarkkitehtuurien kouluttamista luotettavasti. Leikkauksen asettama kova rajoitus ei skaalata hyvin suurempiin ja monimutkaisempiin verkkoarkkitehtuureihin. Havaitaan, että jopa yleisillä tekniikoilla, kuten erän normalisoinnilla kriitikossa, syvät Wgan -kriitikot kamppailevat usein lähentyäkseen painonnostoa sovellettaessa. Nämä rajoitukset vähentävät mallin joustavuutta ja kapasiteettia mallinntaessa monimutkaisia reaalimaailman tiedonjakeluja, mikä johtaa usein huonoon näytteen laatuun tai epäonnistuneeseen koulutukseen.
Alkuperäiset Wgan-paperit ja myöhemmät teokset ovat tunnustaneet, että painon leikkaaminen voi johtaa ei-toivottuun käyttäytymiseen koulutuksessa, etenkin korkean ulottuvuuden tai monimutkaisten tietojoukkojen osalta. Menetelmä voi aiheuttaa kriitikon romahtamisen yksinkertaisempiin toimintoihin vähentäen generoitujen näytteiden laatua ja monimuotoisuutta. Jotkut tutkimukset huomauttavat, että painon leikkaaminen puoluee kriitikkoa toimintoihin, joilla on jatkuvia kaltevuuksia tai vähentyneen gradientin normi, joka on ristiriidassa ihanteellisen Lipschitz -rajoituksen kanssa, että gradientin normi on lähellä yhtä melkein kaikkialla.
Näiden haittojen ratkaisemiseksi on ehdotettu vaihtoehtoja painonleikkeelle, etenkin gradientirangaistusmenetelmä (WGAN-GP). Toisin kuin kova leikkaus, gradienttirangaistus asettaa pehmeän rajoituksen rangaistamalla gradientin normin poikkeamaa yhdestä, mikä rohkaisee sileämpiä ja realistisempia kriitikkoja. Tämä rangaistus lisätään ylimääräisenä termina tappiofunktiossa, välttäen painojen jäykän synnytyksen ja sallimalla vakaamman ja ilmaisullisen kriitikkooppimisen. Gradienttien rangaistuspohjaiset lähestymistavat parantavat merkittävästi koulutuksen vakautta, näytteen laatua ja lähentymisnopeutta painonleikkeeseen verrattuna.
Yhteenvetona voidaan todeta
- Kriitikkojen monimutkaisuutta rajoittava kova rajoitus, mikä johtaa liian yksinkertaisiin syrjinnöihin.
- Koulutuksen epävakaus väärästä leikkausalueen valinnasta aiheuttaen joko katoamis- tai räjähtäviä kaltevuuksia.
- Patologinen painonjako, jossa on monia painoja, jotka kyllästyvät leikkausrajoihin.
- vääristyneiden menetysmaisemien ja gradienttitietojen aiheuttama tehoton optimointi.
- Huonot skaalautuvuus- ja lähentymisongelmat syvien kriitikkoarkkitehtuurien kanssa.
- Luotujen näytteiden heikompi laatu mallinntaessa kompleksia.
- Yleisesti rajoitettu ilmaisu ja epäonnistuminen ylläpitää asianmukaista Lipschitz -jatkuvuutta joustavalla tavalla.