Terugkerende neurale netwerkgebaseerde generatieve adversariale netwerken (RNN-GAN's) combineren de tijdelijke modelleringsmogelijkheden van RNN's met de tegenstanders van gans. De verliesfuncties die in RNN-GAN's worden gebruikt, zijn meestal ontworpen om de doelstellingen van zowel de generator als de discriminator binnen dit kader te optimaliseren, en in combinatie met de Adam Optimizer worden hun gedrag en convergentie beïnvloed door de onderscheidende adaptieve leersnelheidseigenschappen.
Typische verliesfuncties in rnn-gans
RNN-GANS gebruiken variaties van verliesfuncties op basis van de oorspronkelijke GAN-formulering. De meest voorkomende verliesfuncties zijn:
- Binair cross-entropieverlies (BCE-verlies): dit is een veel voorkomende keuze voor de discriminator en generator waar de discriminator probeert reële te onderscheiden van nepsequenties en de generator probeert de discriminator voor de gek te houden door realistische sequenties te produceren. Het BCE -verlies meet de afstand tussen de voorspelde waarschijnlijkheden en de grondwaarheidslabels (real = 1, nep = 0).
- Adversieel verlies (Minimax Loss): het originele GAN -verlies is bedoeld om een minimax -spel op te lossen tussen de generator $$ G $$ en Discriminator $$ D $$. De discriminator maximaliseert de kans om reële en nep -monsters correct te classificeren, terwijl de generator de waarschijnlijkheid van de discriminator minimaliseert die zijn vervalsingen correct classificeert:
$$
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (z))]]
$$
Hier is $$ x $$ een echte reeks en $$ z $$ is ruisinvoer voor de generator. Dit verlies wordt toegepast bij elke tijdstap of over de volledige reeksuitgang, afhankelijk van de implementatie.
- Minste vierkantenverlies (LSGAN): om de training te stabiliseren, vervangt het verlies van de minste kwadraten het BCE -verlies. Het bestraft monsters op basis van hun afstand tot de beslissingsgrens, waardoor de uitgangen dichter bij echte gegevens worden aangemoedigd:
Voor de discriminator:
$$
\ frac {1} {2} \ Mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ Mathbb {e} _ {z \ sim p_z} [d (g (z (z)^2]
$$
Voor de generator:
$$
\ frac {1} {2} \ Mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$$
Dit verlies heeft vaak de voorkeur in opeenvolgende GAN's, waaronder RNN-Gans om verdwijnende gradiënten te voorkomen.
- Wasserstein Loss (WGAN): sommige RNN-GAN-modellen gebruiken Wasserstein-verlies om de trainingsstabiliteit en interpreteerbaarheid te verbeteren. Dit verlies gebruikt de afstand van de Earth Mover als het criterium met een criticus (in plaats van een discriminator) die sequenties scoort in plaats van ze te classificeren:
$$
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (z)]]
$$
Waar $$ \ Mathcal {d} $$ de set van 1-lipschitz-functies is. Het verlies voorkomt verzadigende gradiënten, wat cruciaal kan zijn voor opeenvolgende gegevens.
-Verliezen op sequentieniveau: naast tegenstandersverliezen, kunnen sequentiespecifieke of taakspecifieke verliezen zoals maximale waarschijnlijkheidsschatting (MLE) of leraren die verliezen dwingen, worden gecombineerd met tegenstanders verlies om de generatortraining effectiever te begeleiden op sequenties.
Gebruik van Adam Optimizer in RNN-GANS
De Adam Optimizer wordt algemeen aangenomen in GAN's, inclusief RNN-Gans, vanwege de schatting van het adaptieve moment dat de complexe tegenstanders ten goede komt. ADAM past de leersnelheden afzonderlijk aan voor elke parameter op basis van schattingen van de eerste (gemiddelde) en tweede (variantie) momenten van de gradiënten tijdens de training.
Adam's belangrijkste parameters die meestal worden gebruikt in RNN-GAN-training zijn:
- Leerpercentage ($$ \ alpha $$): in het algemeen klein ingesteld (bijv. 0,0001 tot 0,001) voor stabiele GAN -training.
- Exponentiaal vervalpercentage voor het eerste momentschattingen ($$ \ beta_1 $$): gewoonlijk ingesteld rond 0,5 tot 0,9; lager dan de standaard 0,9 om oscillaties in GAN -training te verminderen.
- Exponentieel vervalpercentage voor het tweede momentschattingen ($$ \ beta_2 $$): meestal op 0,999 bewaard.
- Epsilon ($$ \ epsilon $$): een kleine constante zoals $$ 10^{- 8} $$ om numerieke stabiliteit te behouden.
Adam's evenwicht tussen momentum en adaptieve leerpercentages helpt problemen te overwinnen met niet-stationaire tegenstanders, vooral in sequentiemodellering met RNN's waar gradiënten onstabiel of schaars kunnen zijn.
Common Practice Setup voorbeeld
In praktische RNN-GAN-opstellingen zou men meestal zoiets zien als:
- Discriminator en generator geoptimaliseerd afzonderlijk met binair cross-entropie verlies of zijn varianten.
- De Adam Optimizer gebruiken met $$ \ beta_1 = 0,5 $$, $$ \ beta_2 = 0.999 $$, en leerrente rond $$ 10^{- 4} $$ om gebalanceerde updates te garanderen.
- Training omvat afwisselend updates tussen discriminator en generator op basis van hun respectieve verliezen bij elke trainingsstap of mini-batch.
Verdere variaties en onderzoek
Onderzoek naar verliesfuncties voor GAN's blijft evolueren. Sommige studies introduceren geparametriseerde of gegeneraliseerde verliesfuncties (bijv. Op basis van RÃ © NYI Divergence of Pearson Divergences) om stabiliteit en prestaties te verbeteren. Het toepassen van deze op RNN-GANS kan dienovereenkomstig het wijzigen van discriminator- en generatordoelstellingen omvatten.
Bovendien worden zelfregularisatie en composietverliezen die tegenstanderverlies combineren met wederopbouw- of classificatieverliezen soms aangenomen, afhankelijk van de taak, zoals het genereren van tekst of tijdreeksen synthese.
Samenvatting
Typische RNN-GAN-verliesfuncties met Adam Optimizer gebruiken tegenstanderverliezen geïnspireerd door de originele GaN, inclusief binaire cross-entropie, kleinste vierkanten of Wasserstein-verliezen aangepast voor sequentiële gegevens. De parameterinstellingen van Adam worden specifiek aangepast voor GAN -stabiliteit. Combinaties met sequentiespecifieke verliezen zijn ook gebruikelijk om generatortraining beter te begeleiden op tijdelijke patronen. Dit ensemble vergemakkelijkt de training van adversariële RNN -modellen die sequenties effectief genereren of modelleren.
Referenties voor deze informatie zijn afkomstig van GAN-fundamentele literatuur, RNN-GAN-toepassingen en optimizer-gebruikspatronen,.