Svara izgriezums ir paņēmiens, kas sākotnēji tika ieviests Waserstein Gans (WGANS), lai ieviestu Lipschitz nepārtrauktības ierobežojumu, kas nepieciešams Wasserstein attāluma metrikai. Lai arī tai ir skaitļošanas vienkāršība un daži sākotnējie panākumi, svara izgriezums WGANS ievieš vairākus ievērojamus jautājumus, kas ietekmē treniņu stabilitāti, modeļa spēju un vispārējo veiktspēju.
Viena no galvenajām svara izgriezuma problēmām ir tā, ka tā darbojas kā grūts modeļa svara ierobežojums, saīsinot tos fiksētā diapazonā. Šī ierobežojošā darbība novirza kritiķi (tradicionālo GAN diskriminētājs) attiecībā uz pārāk vienkāršu funkciju apguvi, ierobežojot tā spēju efektīvi modelēt sarežģītu datu sadalījumu. Apcirpšana liek svaram palikt nelielā kastē, kas bieži noved pie tā, ka kritiķis nespēj uztvert augstākas kārtas mirkļus un smalkāku informāciju par datiem. Šis ierobežojums var izraisīt kritiķa funkcijas pārāk vienkāršību, lai precīzi novērtētu Wasserstein attālumu, kas ir būtisks stabilai GaN apmācībai.
Vēl viens saistīts jautājums ir apmācības nestabilitāte, ko izraisa svara izgriezums. Apcirpšanas diapazons ir rūpīgi jānobriež: ja tas ir iestatīts pārāk liels, Lipschitz ierobežojums ir nepietiekami izpildīts, potenciāli izraisot nestabilu apmācību un režīma sabrukumu; Ja tas ir pārāk mazs, slīpumi var pazust vai kļūt pārāk mazi efektīviem atjauninājumiem, pasliktinot modeļa mācīšanos. Izzūd gradienti parasti rodas, ja kritiķu svars tiek saspiests līdz pārmērīgi zemām vērtībām, īpaši arhitektūrā ar dziļiem tīkliem, bez partijas normalizācijas vai atkārtotām sastāvdaļām. Šī gradienta izzušanas problēma rodas tāpēc, ka diskriminējošā svars tiek ierobežots šaurā diapazonā, samazinot kritiķa spēju apmācības laikā sniegt ģeneratoram jēgpilnu atgriezenisko saiti.
Svara izgriezums arī noved pie patoloģiska svara sadalījuma. Empīriski daudziem kritiķu svariem ir tendence uzkrāties uz griešanas diapazona robežām, kas ierobežo iemācīto svaru izteiksmīgumu un daudzveidību. Šis piesātinājuma efekts kavē optimizāciju, jo gradienta atjauninājumi atkārtoti virza svaru uz griešanas robežām, izraisot neefektīvu parametru izpēti un lēnāku konverģenci. Turklāt svara izgriezums izkropļo optimizācijas ainavu, kas nozīmē, ka gradienti un kopējā kritika zaudējumu virsma kļūst mazāk gluda un grūtāk orientējama ar gradienta balstītām metodēm.
Sakarā ar šīm problēmām svara izgriezums var apgrūtināt ļoti dziļu kritiķu arhitektūru apmācību. Cietais ierobežojums, ko uzliek izgriezums, nav labi pielāgots lielākām un sarežģītākām tīkla arhitektūrām. Tiek novērots, ka pat ar kopīgām metodēm, piemēram, partijas normalizāciju kritikā, dziļi Wgan kritiķi bieži cīnās, lai saplūst, ja tiek pielietots svara griešana. Šie ierobežojumi samazina modeļa elastību un spēju, modelējot sarežģītus reālās pasaules datu sadalījumus, bieži iegūstot sliktu paraugu kvalitāti vai neveiksmīgu apmācību.
Oriģinālie WGAN dokumenti un sekojošie darbi ir atzinuši, ka svara izgriezums var izraisīt nevēlamu izturēšanos apmācībā, īpaši augstas dimensijas vai sarežģītām datu kopām. Metode var izraisīt kritiķa sabrukumu vienkāršākām funkcijām, samazinot ģenerēto paraugu kvalitāti un daudzveidību. Daži pētījumi norāda, ka svara samazināšana novirza kritiķi pret funkcijām ar nemainīgiem gradientiem vai ievērojami samazinātu gradienta normu, kas ir pretrunā ar ideālo LipSchitz ierobežojumu, ja gradienta norma ir tuvu gandrīz visur.
Lai risinātu šos trūkumus, ir ierosinātas alternatīvas svara samazināšanai, īpaši gradienta soda (WGAN-GP) metodei. Atšķirībā no cietās izgriezuma, gradienta sods uzliek mīkstu ierobežojumu, sodot gradienta normas novirzi no vienas, kas veicina vienmērīgākas un reālākas kritiķu funkcijas. Šis sods tiek pievienots kā papildu termins zaudējumu funkcijā, izvairoties no stingras svara norobežošanas un ļaujot stabilākai un izteiksmīgākai kritiķei. Uz gradienta uz sodiem balstītas pieejas ievērojami uzlabo apmācības stabilitāti, parauga kvalitāti un konverģences ātrumu, salīdzinot ar svara izgriezumu.
Rezumējot, galvenās problēmas ar svara izgriezumu WGANS ir:
- grūts ierobežojums, kas ierobežo kritisko sarežģītību, izraisot pārāk vienkāršus diskriminatorus.
- Mācību nestabilitāte no nepareizas izgriezuma diapazona izvēles, izraisot vai nu izzušanu, vai arī eksplodējot slīpumus.
- patoloģisks svara sadalījums ar daudziem svariem, kas piesātināti pie griešanas robežām.
- neefektīva optimizācija izkropļotu zaudējumu ainavu un gradienta informācijas dēļ.
- Sliktas mērogojamības un konverģences problēmas ar dziļu kritiķu arhitektūru.
- Zemāka ģenerēto paraugu kvalitāte, modelējot sarežģītus datus.
- Kopumā ierobežota izteiksmība un nespēja elastīgā veidā uzturēt pareizu Lipschitz nepārtrauktību.