Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Millised on RNN-GANAN-is kasutatavad tüüpilised kadumisfunktsioonid koos Adami optimeerijaga


Millised on RNN-GANAN-is kasutatavad tüüpilised kadumisfunktsioonid koos Adami optimeerijaga


Korduvad närvivõrgupõhised generatiivsed võistlevad võrgud (RNN-GANS) ühendavad RNN-ide ajalise modelleerimisvõimalused GANS-i võistluskoolituspõhimõtetega. RNN-gaanides kasutatavad kadumisfunktsioonid on tavaliselt loodud nii generaatori kui ka selle raamistiku diskrimineerija eesmärkide optimeerimiseks ning ADAM-i optimeerijaga ühendamisel mõjutab nende käitumist ja lähenemist selle eripärased adaptiivsed õpikiiruse omadused.

RNN-GANN-is tüüpilised kaotusfunktsioonid

RNN-vanad kasutavad kadumisfunktsioonide variatsioone, mis põhinevad GAN-i algsel koostisel. Kõige tavalisemad kaotusfunktsioonid on järgmised:

- Binaarne rist-entroopia kadu (BCE kaotus): see on diskrimineerija ja generaatori jaoks tavaline valik, kus diskrimineerija üritab eristada võltsjärjestustest tegelikku ja generaator üritab diskrimineerijat lollitada, tekitades realistlikke järjestusi. BCE kaotus mõõdab prognoositavate tõenäosuste ja maapealse tõe siltide vahelist kaugust (reaalne = 1, võlts = 0).

- Ränsakaotus (minimax kaotus): GAN -i algse kaotuse eesmärk on lahendada minimax mäng generaatori $$ G $$ ja diskrimineerija $$ D $$ vahel. Diskriminaator maksimeerib tõenäosust, et reaalsed ja võltsproovid õigesti klassifitseerida, samas kui generaator vähendab diskrimineerija tõenäosust oma võltsingute õigesti klassifitseerimise tõenäosust:
$$
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (z))]
$$
Siin on $$ x $$ tõeline jada ja $$ Z $$ on generaatori mürasisend. Seda kaotust rakendatakse igal ajaperioodil või kogu järjestuse väljundil sõltuvalt rakendusest.

- Väiksemate ruutude kaotus (LSGAN): Treeningu stabiliseerimiseks asendab BCE kaotus kõige väiksemaid ruute. See karistab proove nende kaugusel otsustuspiirist, julgustades väljundeid reaalsetele andmetele lähemal:
Diskrimineerija jaoks:
$$
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e {e} {Z \ Sim p_z} [d (z)^2]^2]
$$
Generaatori jaoks:
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$$
Seda kaotust eelistatakse sageli järjestusel põhinevates GAN-des, sealhulgas RNN-Gans, et vältida kaduvaid gradiente.

- Wassersteini kaotus (WGAN): mõned RNN-GAN-mudelid kasutavad Wassersteini kaotust treeningu stabiilsuse ja tõlgendatavuse parandamiseks. See kaotus kasutab maakera vahemaa kriitiku kriteeriumina (diskrimineerija asemel), mis skoorib järjestusi, mitte neid liigitama:
$$
\ min_g \ max_ {d \ in \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data>} [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (z)]]
$$
Kus $$ \ Mathcal {d} $$ on 1-lipschitzi funktsioonide komplekt. Kaotus väldib küllastunud gradiente, mis võib olla järjestikuste andmete jaoks kriitiline.

-Järjestuse taseme kaotused: Lisaks vastandlikele kaotustele võib järjestusspetsiifiliste või ülesannete spetsiifiliste kaotuste, näiteks maksimaalse tõenäosuse hindamise (MLE) või õpetaja sunniviisilise kaotuse sunniviisiliselt ühendada vastandliku kaotusega, et juhendada generaatori treenimist järjestustel tõhusamalt.

Aadama optimeerija kasutamine RNN-Gansis

Adami optimeerija on laialdaselt kasutusele võetud GANS-is, sealhulgas RNN-Gansis, tänu selle kohanemishetke hinnangule, mis on kasulik keerukale võistlevatele koolitustele. ADAM kohandab iga parameetri õppemäärasid individuaalselt, tuginedes gradientide esimese (keskmise) ja teise (variatsiooni) hetke hinnangute põhjal koolituse ajal.

Adami peamised parameetrid, mida tavaliselt RNN-Gan Training'is kasutatakse, on:

- Õppimismäär ($$ \ alpha $$): üldiselt seadistage stabiilseks GAN -treeninguks väikeseks (nt 0,0001 kuni 0,001).
- Esimeste hetkede hinnangute eksponentsiaalne lagunemiskiirus ($$ \ beeta_1 $$): tavaliselt seatud 0,5 kuni 0,9; madalam kui standard 0,9, et vähendada võnkeid GAN -i treeningutes.
- Teise hetke hinnangute eksponentsiaalne lagunemiskiirus ($$ \ beeta_2 $$): tavaliselt hoitakse 0,999.
- Epsilon ($$ \ epsilon $$): väike konstant nagu $ $ 10^{- 8} $$ numbrilise stabiilsuse säilitamiseks.

Adami hoogsa tasakaalu ja adaptiivsete õppimismäärade tasakaal aitab üle saada probleeme mittestatsionaarsete võistlevate kaotustega, eriti järjestuse modelleerimisel RNN-idega, kus gradiendid võivad olla ebastabiilsed või hõredad.

Ühise praktika seadistamise näide

Praktilistes RNN-GAN seadistustes näeks tavaliselt midagi sellist:

- diskrimineerija ja generaator optimeerisid eraldi binaarse rist-entroopia kadu või selle variantidega.
- Kasutades ADAM-i optimeerijat $$ \ beeta_1 = 0,5 $$, $$ \ beeta_2 = 0,999 $$ ja õppimiskiirusega umbes $ $ 10^{- 4} $$, et tagada tasakaalustatud värskendused.
- Koolitus hõlmab diskrimineerija ja generaatori vaheldumisi, tuginedes nende vastavatele kaotustele iga treeningutapi või mini-partii korral.

Edasised variatsioonid ja uuringud

GANS -i kahjumisfunktsioonide uurimine jätkub arenedes. Mõnedes uuringutes on stabiilsuse ja jõudluse suurendamiseks kaasas parameetrilised või üldistatud kaotusfunktsioonid (nt Ré Ré NYI lahknemise või Pearsoni lahknevuste põhjal). Nende rakendamine RNN-GAN-idele võib hõlmata vastavalt diskrimineerija ja generaatori eesmärkide muutmist.

Lisaks võetakse mõnikord sõltuvalt ülesandest, näiteks teksti genereerimise või aegridade sünteesiga, iseregulatiivse ja komposiitkaod, mis ühendavad vastase kadu rekonstrueerimise või klassifitseerimise kaotusega.

Kokkuvõte

Tüüpilised RNN-GAN-i kaotusfunktsioonid koos ADAM-i optimeerijaga kasutavad algsest GAN-ist inspireeritud võistlevaid kaotusi, sealhulgas binaarset rist-entroopiat, väikseimaid ruute või järjestikuste andmete jaoks kohandatud kadusid. Adami parameetri sätteid kohandatakse spetsiaalselt GAN -i stabiilsuse osas. Kombinatsioonid jadapõhiste kaotustega on tavalised ka ajaliste mustrite parema juhendamise generaatori treenimiseks. See ansambel hõlbustab RNN -i vastaste mudelite väljaõpet, mis genereerivad või modelleerisid järjestusi tõhusalt.

Selle teabe viited pärinevad GAN-i põhikirjandusest, RNN-GAN rakendustest ja optimeerija kasutamismustritest.