Rețelele adversare generative recurente bazate pe rețele neuronale (RNN-Gans) combină capacitățile de modelare temporală ale RNN-urilor cu principiile de formare adversă a GAN-urilor. Funcțiile de pierdere utilizate în RNN-GAN-uri sunt de obicei concepute pentru a optimiza obiectivele atât ale generatorului, cât și ale discriminatorului în acest cadru, iar atunci când sunt asociate cu optimizatorul Adam, comportamentul și convergența lor sunt influențate de proprietățile sale de rată de învățare adaptativă distincte.
Funcții tipice de pierdere în RNN-Gans
RNN-Gans utilizează variații ale funcțiilor de pierdere pe baza formulării originale GAN. Cele mai frecvente funcții de pierdere implicate sunt:
- Pierderea binară a entropiei încrucișate (pierderea BCE): Aceasta este o alegere comună pentru discriminator și generator în care discriminatorul încearcă să distingă realul de secvențe false și generatorul încearcă să păcălească discriminatorul producând secvențe realiste. Pierderea BCE măsoară distanța dintre probabilitățile prezise și etichetele de adevăr la sol (real = 1, fals = 0).
- Pierdere adversă (pierderi minime): Pierderea inițială a GAN își propune să rezolve un joc minimax între generatorul $$ G $$ și discriminator $$ d $$. Discriminatorul maximizează probabilitatea clasificării corecte a probelor reale și false, în timp ce generatorul minimizează probabilitatea ca discriminatorul să -și clasifice corect falsurile:
$$
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (z)))]]
$$
Aici, $$ x $$ este o secvență reală și $$ z $$ este o intrare de zgomot către generator. Această pierdere este aplicată la fiecare cronometru sau peste ieșirea completă a secvenței în funcție de implementare.
- Pierderea cel puțin pătrate (LSGAN): Pentru a stabiliza antrenamentul, pierderea cea mai mică pătrate înlocuiește pierderea BCE. Penalizează eșantioanele pe baza distanței lor față de granița deciziei, încurajând rezultatele mai aproape de datele reale:
Pentru discriminator:
$$
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [d (g (z))^2]
$$
Pentru generator:
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$$
Această pierdere este adesea preferată în GAN-urile bazate pe secvențe, inclusiv RNN-Gans, pentru a evita gradienții dispăruți.
- Pierderea lui Wasserstein (WGAN): Unele modele RNN-Gan folosesc pierderea de wasserstein pentru a îmbunătăți stabilitatea și interpretabilitatea instruirii. Această pierdere folosește distanța Pământului ca criteriu cu un critic (în loc de un discriminator) care înscrie secvențe, mai degrabă decât să le clasifice:
$$
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (g (z))]]
$$
Unde $$ \ Mathcal {d} $$ este setul de funcții 1-lipschitz. Pierderea evită gradienții de saturare, care pot fi critici pentru datele secvențiale.
-Pierderi la nivel de secvență: Pe lângă pierderi adverse, pierderi specifice secvenței sau specifice sarcinii, cum ar fi estimarea probabilității maxime (MLE) sau pierderile de forțare a profesorilor ar putea fi combinate cu pierderi adverse pentru a ghida instruirea generatorului mai eficient asupra secvențelor.
Utilizarea Adam Optimizer în RNN-Gans
Adam Optimizer este adoptat pe scară largă în GAN-uri, inclusiv RNN-Gans, datorită estimării momentului adaptativ care beneficiază de pregătirea adversă complexă. Adam ajustează ratele de învățare individual pentru fiecare parametru pe baza estimărilor primelor (medii) și a doua (variație) ale gradienților în timpul antrenamentului.
Parametrii cheie ai lui Adam utilizați de obicei în formarea RNN-Gan sunt:
- Rata de învățare ($$ \ alpha $$): se stabilește în general mic (de exemplu, 0,0001 până la 0,001) pentru o pregătire GAN stabilă.
- Rata de descompunere exponențială pentru estimările din primul moment ($$ \ beta_1 $$): setați în mod obișnuit în jur de 0,5 până la 0,9; mai mic decât standardul 0,9 pentru a reduce oscilațiile în antrenamentul GaN.
- Rata de descompunere exponențială pentru estimările din al doilea moment ($$ \ beta_2 $$): de obicei păstrat la 0,999.
- epsilon ($$ \ epsilon $$): o constantă mică ca $$ 10^{- 8} $$ pentru a menține stabilitatea numerică.
Echilibrul de impuls al impulsului și ratele de învățare adaptative ajută la depășirea problemelor cu pierderile adversale non-staționare, în special în modelarea secvențelor cu RNN-uri, unde gradienții pot fi instabili sau rare.
Exemplu de configurare a practicii obișnuite
În setările practice RNN-Gan, de obicei, s-ar vedea ceva de genul:
- Discriminator și generator optimizat separat cu pierderea binară a întreprinderii încrucișate sau cu variantele sale.
- Folosind Adam Optimizer cu $$ \ beta_1 = 0,5 $$, $$ \ beta_2 = 0,999 $$, și rata de învățare în jur de $$ 10^{- 4} $$ pentru a asigura actualizări echilibrate.
- Instruirea implică alternative de actualizări între discriminator și generator pe baza pierderilor respective la fiecare etapă de antrenament sau mini-lot.
Alte variații și cercetări
Cercetările privind funcțiile de pierdere pentru GANS continuă să evolueze. Unele studii introduc funcții de pierdere parametrizate sau generalizate (de exemplu, bazate pe Divergența NYI sau Divergențe Pearson) pentru a spori stabilitatea și performanța. Aplicarea acestora la RNN-GANS ar putea implica modificarea obiectivelor discriminatorului și generatorului în consecință.
În plus, sunt adoptate uneori pierderile de autoregularizare și compuse care combină pierderea adversă cu pierderile de reconstrucție sau clasificare în funcție de sarcină, cum ar fi generarea de text sau sinteza seriei de timp.
Rezumat
Funcțiile tipice de pierdere RNN-Gan cu Adam Optimizer folosesc pierderi adverse inspirate de GAN original, inclusiv binare încrucișate-intropie, cel mai puțin pătrate sau pierderi de wasserstein adaptate pentru date secvențiale. Setările parametrilor lui Adam sunt ajustate special pentru stabilitatea GAN. Combinațiile cu pierderi specifice secvenței sunt, de asemenea, comune pentru a ghida o mai bună pregătire a generatorului pe modelele temporale. Acest ansamblu facilitează instruirea modelelor RNN adversare care generează sau modelează secvențe în mod eficient.
Referințele pentru aceste informații derivă din literatura fundamentală GAN, aplicațiile RNN-Gan și modelele de utilizare a optimizărilor.