Suprasti nuostolių funkcijas RNN-granuose su „Adam Optimizer“

Pasikartojantys neuroniniai tinklo generatyviniai prieštaringos tinklai (RNN-GANS) sujungia RNN laikinojo modeliavimo galimybes su GANS prieštaringų mokymo principais. Nuostolių funkcijos, naudojamos RNN-GANS, paprastai yra sukurtos siekiant optimizuoti tiek generatoriaus, tiek diskriminatoriaus tikslus šioje sistemoje, o susiejus su ADAM optimizatoriumi, jų elgesiui ir suartėjimui daro įtaką jos išskirtinės adaptyvios mokymosi greičio savybės.

tipiškos nuostolių funkcijos RNN-GANS

RNN-GANS naudoja nuostolių funkcijų pokyčius, pagrįstus originalia GAN formule. Dažniausiai pasitaikančios nuostolių funkcijos yra:

- Dvejetainis kryžminio entropijos praradimas (BCE praradimas): Tai yra dažnas pasirinkimas diskriminatoriui ir generatoriui, kai diskriminatorius bando atskirti realybę nuo padirbtų sekų, o generatorius bando apgauti diskriminatorių gamindamas realias sekas. BCE nuostolis matuoja atstumą tarp numatytų tikimybių ir žemės tiesos etikečių (real = 1, netikra = 0).

- prieštaringų nuostolių („Minimax Loss“): originalus GAN nuostolis siekia išspręsti „Minimax“ žaidimą tarp generatoriaus $ $ G $ $ ir diskriminatoriaus $ $ D $$. Diskriminatorius padidina tikimybę teisingai klasifikuoti tikrus ir padirbtus mėginius, o generatorius sumažina diskriminatoriaus tikimybę teisingai klasifikuoti savo padirbinius:
$ $
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (z)))]]
$ $
Čia $$ x $$ yra tikra seka, o $ $ z $$ yra triukšmo įvestis generatoriui. Šis nuostolis taikomas kiekviename laiko arba per visą sekos išvestį, atsižvelgiant į įgyvendinimą.

- Mažiausiai kvadratų praradimas (LSGAN): Stabilizuoti treniruotes, mažiausiai kvadratų nuostoliai pakeičia BCE nuostolį. Tai baudžia pavyzdžius, atsižvelgiant į jų atstumą nuo sprendimo ribos, skatinant rezultatus arčiau realių duomenų:
Diskriminatoriui:
$ $
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1) -1)^2] + \ frac {1} {2} \ mathbb {e} {z {z \ sim p_z} [d (g (z))^2].
$ $
Generatoriui:
$ $
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$ $
Šis nuostolis dažnai teikiamas pirmenybė seka pagrįstais GAN, įskaitant RNN-GANS, kad būtų išvengta nykimo gradientų.

- Wassersteino praradimas (WGAN): Kai kurie RNN-Gano modeliai naudoja „Wasserstein“ praradimą, kad pagerintų mokymo stabilumą ir aiškinamąjį aiškumą. Šis nuostolis naudoja Žemės judėjimo atstumą kaip kriterijų su kritiku (vietoj diskriminatoriaus), kuris įvertina sekas, o ne jas klasifikuoja:
$ $
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (g (z))]]
$ $
Kur $$ \ Mathcal {d} $$ yra 1-LIPSCHITZ funkcijų rinkinys. Nuostolis išvengia prisotinančių gradientų, kurie gali būti labai svarbūs nuosekliems duomenims.

-sekos lygio nuostoliai: Be prieštaringų nuostolių, specifinių sekų ar užduoties nuostolių, tokių kaip maksimalus tikimybės įvertinimas (MLE) ar mokytojo verčiantys nuostoliai, gali būti derinami su prieštaringais nuostoliais, kad generatoriaus mokymas būtų veiksmingesnis seka.

„Adam Optimizer“ naudojimas RNN-GANS

„Adam Optimizer“ yra plačiai priimtas GANS, įskaitant RNN-GANS, dėl jo adaptyvaus momento įvertinimo, kuris yra naudingas sudėtingam prieštaringų mokymui. Adomas atskirai koreguoja kiekvieno parametro mokymosi greitį, remdamasis pirmojo (vidutinio) ir antrojo (dispersijos) gradientų momentų įvertinimais treniruotėse.

Pagrindiniai Adomo parametrai, paprastai naudojami RNN-Gano treniruotėse, yra šie:

- Mokymosi greitis ($ $ \ alfa $$): paprastai nustatykite mažą (pvz., 0,0001–0,001), kad būtų stabilus GAN mokymas.
- Eksponentinis skilimo greitis pirmajam momento įvertinimams ($ $ \ beta_1 $$): paprastai nustatyta maždaug nuo 0,5 iki 0,9; Mažesnis nei standartinis 0,9, kad sumažėtų virpesių ganos treniruotėse.
- Eksponentinis skilimo greitis antrojo momento įvertinimams ($ $ \ beta_2 $$): paprastai laikomas 0,999.
- „Epsilon“ ($$ \ epsilon $$): maža konstanta, pavyzdžiui, $$ 10^{- 8} $$, kad būtų išlaikytas skaitmeninis stabilumas.

Adomo pusiausvyros pusiausvyra ir adaptyvaus mokymosi greitis padeda įveikti nestacionarius prieštaringų nuostolių problemas, ypač seka modeliuojant su RNN, kur gradientai gali būti nestabilūs ar negausi.

Įprastos praktikos sąrankos pavyzdys

Praktiniuose RNN-Gano sąrankose paprastai būtų galima pamatyti kažką panašaus:

- Diskriminatorius ir generatorius, optimizuotas atskirai su dvejetainiu kryžminio entropijos praradimu ar jo variantais.
- Naudojant „Adam Optimizer“ su $ $ \ beta_1 = 0,5 $$, $$ \ beta_2 = 0,999 $ $, o mokymosi norma- maždaug $$ 10^{- 4} $$, kad būtų užtikrintas subalansuotas atnaujinimai.
- Mokymai apima kintamąjį atnaujinimus tarp diskriminatoriaus ir generatoriaus, atsižvelgiant į jų atitinkamus nuostolius kiekviename mokymo etape arba mini partijoje.

Kiti variantai ir tyrimai

Ganso praradimo funkcijų tyrimai ir toliau keičiasi. Kai kuriuose tyrimuose pateikiamos parametrizuotos ar apibendrintos nuostolių funkcijos (pvz., Remiantis R Tada NYI divergence arba Pearson skirtumais), kad padidintų stabilumą ir našumą. Taikant juos RNN-slenksmėms, tai gali būti atitinkamai keičiant diskriminatoriaus ir generatoriaus tikslus.

Be to, kartais priimami savireguliarizacija ir sudėtiniai nuostoliai, derinantys prieštarinius nuostolius su rekonstrukcija ar klasifikavimo nuostoliai, atsižvelgiant į užduotį, pavyzdžiui, teksto generavimo ar laiko eilutės sintezę.

Santrauka

Tipiškos RNN-GAN nuostolių funkcijos naudojant „Adam Optimizer“ Naudokite prieštarinius nuostolius, įkvėptus originalaus GAN, įskaitant dvejetainę kryžminę entropiją, mažiausiai kvadratą arba Wassersteino nuostolius, pritaikytus nuosekliems duomenims. Adomo parametrų parametrai yra pakoreguoti specialiai GAN stabilumui. Deriniai su seka specifiniais nuostoliais taip pat yra įprasta, kad būtų geriau nukreiptos generatoriaus mokymai pagal laikinus modelius. Šis ansamblis palengvina prieštaringų RNN modelių mokymą efektyviai generuojant ar modeliuojant sekas.

Nuorodos į šią informaciją kyla iš „Gan“ pamatinės literatūros, RNN-GAN programų ir optimizatorių naudojimo modelių.

Kokios yra tipiškos nuostolių funkcijos, naudojamos RNN-GANS su ADAM optimizatoriumi

tipiškos nuostolių funkcijos RNN-GANS

„Adam Optimizer“ naudojimas RNN-GANS

Įprastos praktikos sąrankos pavyzdys

Kiti variantai ir tyrimai

Santrauka