Izpratne par zaudējumu funkcijām RNN-gans ar Adam Optimizer

Atkārtoti neironu tīklā balstīti ģeneratīvie sacensību tīkli (RNN-GAN) apvieno RNN laika modelēšanas iespējas ar GaN sacīkšu apmācības principiem. Zaudējumu funkcijas, kas izmantotas RNN-GAN, parasti ir paredzētas, lai optimizētu gan ģeneratora, gan diskriminatora mērķus šajā ietvarā, un, pārī ar Adam optimizatoru, to uzvedību un konverģenci ietekmē tās atšķirīgās adaptīvās mācīšanās ātruma īpašības.

Tipiskas zaudējumu funkcijas RNN-gans

RNN-GAN izmanto zaudējumu funkciju variācijas, pamatojoties uz sākotnējo GaN formulējumu. Visizplatītākās zaudējumu funkcijas ir:

- Binārs krusteniskās entropijas zudums (BCE zudums): Šī ir izplatīta izvēle diskriminatoram un ģeneratoram, kurā diskriminētājs mēģina atšķirt reālo no viltotām sekvencēm, un ģenerators mēģina apmānīt diskriminatoru, izveidojot reālistiskas secības. BCE zudums mēra attālumu starp prognozētajām varbūtībām un zemes patiesības etiķetēm (reālā = 1, viltus = 0).

- Starpības zaudējumi (minimax zaudējumi): Sākotnējā GaN zaudējumu mērķis ir atrisināt minimax spēli starp ģeneratoru $$ G $$ un diskriminatoru $$ D $$. Diskriminators palielina reālo un viltus paraugu pareizu klasificēšanas varbūtību, savukārt ģenerators samazina diskriminatora varbūtību pareizi klasificēt tā viltojumus:
$ $
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (z))]]
$ $
Šeit $$ X $$ ir īsta secība, un $$ z $$ ir trokšņa ievadīšana ģeneratoram. Šie zaudējumi tiek izmantoti katrā laika posmā vai virs visas secības izejas atkarībā no ieviešanas.

- Mazāko kvadrātu zaudējums (LSGAN): Lai stabilizētu apmācību, mazāko kvadrātu zaudējums aizstāj BCE zaudējumu. Tas soda paraugus, pamatojoties uz to attālumu no lēmuma robežas, mudinot izvadus tuvāk reāliem datiem:
Diskriminatoram:
$ $
\ FRAC {1} {2} \ MATHBB {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [d (g))^2]
$ $
Ģeneratoram:
$ $
\ FRAC {1} {2} \ MATHBB {E} _ {Z \ SIM P_Z} [(D (G (Z))-1)^2]
$ $
Lai izvairītos no izzušanas gradientu, šis zaudējums bieži tiek dots priekšroka secībā balstītiem Gans, ieskaitot RNN-GAN.

- Wasserstein zaudējums (WGAN): Daži RNN-Gan modeļi izmanto Waserstein zaudējumu, lai uzlabotu apmācības stabilitāti un interpretējamību. Šis zaudējums izmanto Zemes virzītāja attālumu kā kritēriju ar kritiķi (diskriminatora vietā), kas vērtē secības, nevis klasificē tās:
$ $
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (g (z))]
$ $
Kur $$ \ mathcal {d} $$ ir 1-lipschitz funkciju komplekts. Zaudējumi ļauj izvairīties no piesātinātiem slīpumiem, kas var būt kritiski svarīgi secīgiem datiem.

-Secības līmeņa zaudējumi: papildus pretrunīgiem zaudējumiem, secībai specifiski vai uzdevumam specifiski zaudējumi, piemēram, maksimālās varbūtības novērtējums (MLE) vai skolotāja piespiešanas zaudējumus, var apvienot ar pretrunīgiem zaudējumiem, lai efektīvāk virzītu ģeneratora apmācību secībām.

Ādama optimizatora lietošana RNN-gans

Adam Optimizer tiek plaši pieņemts GAN, ieskaitot RNN-GAN, pateicoties tā adaptīvā momenta novērtējumam, kas dod labumu sarežģītai pretrunīga apmācībai. Ādams pielāgo katra parametra mācību ātrumu individuāli, pamatojoties uz gradientu pirmā (vidējā) un otrā (dispersijas) momentu aprēķiniem apmācības laikā.

Ādama galvenie parametri, ko parasti izmanto RNN-Gan apmācībā, ir:

- Mācīšanās ātrums ($$ \ alfa $$): parasti ir mazs (piemēram, 0,0001 līdz 0,001) stabilai GaN apmācībai.
- eksponenciālā sabrukšanas likme Pirmā mirkļa aplēses ($$ \ beta_1 $$): parasti ir no 0,5 līdz 0,9; zemāks par standarta 0,9, lai samazinātu svārstības GaN apmācībā.
- Eksponenciālā sabrukšanas likme otrā mirkļa aprēķiniem ($$ \ beta_2 $$): parasti tiek turēts 0,999.
- Epsilon ($$ \ Epsilon $$): maza konstante, piemēram, $$ 10^{- 8} $$, lai saglabātu skaitlisko stabilitāti.

Ādama impulsa līdzsvars un adaptīvie mācību ātrumi palīdz pārvarēt problēmas ar nestacionāriem pretrunīgiem zaudējumiem, it īpaši secībā, modelējot ar RNN, kur gradienti var būt nestabili vai reti.

Parastās prakses iestatīšanas piemērs

Praktiskos rnn-gan iestatījumos parasti varētu redzēt kaut ko līdzīgu:

- Diskriminējošais un ģenerators optimizēts atsevišķi ar bināriem krusteniskuma zudumiem vai tā variantiem.
- Adam Optimizer izmantošana ar $$ \ beta_1 = 0,5 $$, $$ \ beta_2 = 0,999 $$ un mācību ātrumu ap $$ 10^{- 4} $$, lai nodrošinātu līdzsvarotu atjauninājumu.
- Apmācība ir saistīta ar diskriminatora un ģeneratora atjauninājumu maiņu, pamatojoties uz viņu attiecīgajiem zaudējumiem katrā apmācības posmā vai mini partijā.

Turpmākās variācijas un pētījumi

Pētījumi par GaN zaudējumu funkcijām turpina attīstīties. Daži pētījumi ievieš parametrizētas vai vispārinātas zaudējumu funkcijas (piemēram, pamatojoties uz Réi atšķirību vai Pīrsona atšķirībām), lai uzlabotu stabilitāti un veiktspēju. To piemērošana RNN-GAN varētu attiecīgi ietvert diskriminatora un ģeneratora mērķu modificēšanu.

Turklāt dažreiz tiek pieņemti pašregulācija un salikti zaudējumi, kas apvieno konkurences zaudējumus ar rekonstrukciju vai klasifikācijas zaudējumiem, atkarībā no uzdevuma, piemēram, teksta ģenerēšanas vai laika sērijas sintēzes.

kopsavilkums

Tipiskas RNN-Gan zaudējumu funkcijas ar Adam Optimizer Izmantojiet pretrunīgus zaudējumus, kurus iedvesmojusi oriģinālā GaN, ieskaitot bināro krustenisko entropiju, vismazāko kvadrātu vai Waserstein zudumus, kas pielāgoti secīgiem datiem. Ādama parametru iestatījumi tiek īpaši pielāgoti GaN stabilitātei. Kombinācijas ar secību specifiskiem zaudējumiem ir arī kopīgas, lai labāk vadītu ģeneratora apmācību pēc laika modeļiem. Šis ansamblis atvieglo sacīkšu RNN modeļu apmācību, kas efektīvi ģenerē vai modelē secības.

Atsauces uz šo informāciju izriet no GAN pamatliteratūras, RNN-Gan lietojumprogrammām un optimizētāja lietošanas modeļiem.

Kādas ir tipiskās zaudējumu funkcijas, ko izmanto RNN-gans ar Adam Optimizer

Tipiskas zaudējumu funkcijas RNN-gans

Ādama optimizatora lietošana RNN-gans

Parastās prakses iestatīšanas piemērs

Turpmākās variācijas un pētījumi

kopsavilkums