Powtarzające się generatywne sieci przeciwne oparte na sieci neuronowej (RNN-GANS) łączą możliwości modelowania czasowego RNN z zasadami szkolenia przeciw przeciwni GAN. Funkcje strat stosowane w ganach RNN są zwykle zaprojektowane w celu optymalizacji celów zarówno generatora, jak i dyskryminatora w ramach tej struktury, a po sparowaniu z optymalizatorem Adam na ich zachowanie i konwergencja wpływają jego charakterystyczne właściwości adaptacyjnego uczenia się.
Typowe funkcje strat w ganach RNN
Gany RNN wykorzystują zmiany funkcji strat w oparciu o oryginalny sformułowanie GAN. Najczęstsze zaangażowane funkcje strat to:
- Binarna utrata między entropią (utrata pne): Jest to powszechny wybór dla dyskryminatora i generatora, w którym dyskryminator próbuje odróżnić prawdziwe od fałszywych sekwencji, a generator próbuje oszukać dyskryminator poprzez tworzenie realistycznych sekwencji. Utrata BCE mierzy odległość między przewidywanymi prawdopodobieństwami a etykietami prawdy naziemnej (prawdziwy = 1, fałszywy = 0).
- Strata przeciwnika (utrata minimax): Oryginalna strata GAN ma na celu rozwiązanie gry minimax między generatorem $$ g $$ a dyskryminatorem $$ d $$. Dyskryminator maksymalizuje prawdopodobieństwo prawidłowej klasyfikacji rzeczywistych i fałszywych próbek, podczas gdy generator minimalizuje prawdopodobieństwo prawidłowego klasyfikowania jego podróbek:
$$
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (z)))
$$
Tutaj $$ x $$ to prawdziwa sekwencja, a $$ z $$ to hałas do generatora. Utrata ta jest stosowana w każdym znaczniku lub nad pełną sekwencją wyjściową w zależności od implementacji.
- Utrata najmniejszych kwadratów (LSAN): Aby ustabilizować trening, utrata najmniejszych kwadratów zastępuje utratę BCE. Karuje próbki na podstawie ich odległości od granicy decyzji, zachęcając do wyników bliżej rzeczywistych danych:
Dla dyskryminatora:
$$
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [d (g (z))^2]
$$
Dla generatora:
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$$
Strata ta jest często preferowana w GAN opartych na sekwencji, w tym ganice RNN, aby uniknąć znikania gradientów.
- Strata Wasserstein (WGAN): Niektóre modele RNN-GAN wykorzystują stratę Wasserstein w celu poprawy stabilności szkolenia i interpretacji. Ta strata wykorzystuje odległość Mercesa Ziemia jako kryterium z krytykiem (zamiast dyskryminatora), który ocenia sekwencje, a nie klasyfikowanie ich:
$$
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (z))
$$
Gdzie $$ \ mathcal {d} $$ jest zbiorem funkcji 1-lipschitz. Strata pozwala uniknąć nasycenia gradientów, co może być kluczowe dla danych sekwencyjnych.
-Straty na poziomie sekwencji: oprócz strat przeciwnych, straty specyficzne dla sekwencji lub specyficzne dla zadania, takie jak oszacowanie maksymalnego prawdopodobieństwa (MLE) lub wymuszanie nauczycieli, mogą być połączone ze stratą przeciwnikową, aby skuteczniej kierować treningiem generatora.
Zastosowanie Adama Optimizer w RNN-GAN
Optymalizator Adama jest szeroko przyjęty w GAN, w tym w ganice RNN, ze względu na jego ocenę momentu adaptacyjnego, które przynosi korzyści złożonego szkolenia przeciwnika. Adam dostosowuje wskaźniki uczenia się indywidualnie dla każdego parametru na podstawie szacunków pierwszych (średniej) i drugiej (wariancji) gradientów podczas treningu.
Kluczowe parametry Adama zwykle stosowane w szkoleniu RNN-GAN to:
- Stawka uczenia się ($$ \ alfa $$): ogólnie ustawiona niewielka (np. 0,0001 do 0,001) na stabilne szkolenie GAN.
- Wskaźnik rozpadu wykładniczego dla szacunków pierwszego momentu ($$ \ beta_1 $$): powszechnie ustawiony około 0,5 do 0,9; Niższe niż standard 0,9 w celu zmniejszenia oscylacji w treningu GAN.
- Wskaźnik rozpadu wykładniczego dla szacunków drugiego momentu ($$ \ beta_2 $$): zwykle utrzymywany na poziomie 0,999.
- Epsilon ($$ \ epsilon $$): Mała stała jak $$ 10^{- 8} $$ w celu utrzymania stabilności liczbowej.
Równowaga Adama pędu i adaptacyjne wskaźniki uczenia się pomagają przezwyciężyć problemy z nieposięciowymi stratami przeciwnikowymi, szczególnie w modelowaniu sekwencji z RNN, w których gradienty mogą być niestabilne lub rzadkie.
Przykład konfiguracji wspólnej praktyki
W praktycznych konfiguracjach RNN-GAN zazwyczaj można było zobaczyć coś takiego:
- Dyskryminator i generator zoptymalizowane osobno z binarną stratą między entropią lub jej wariantami.
- Korzystanie z optymalizatora Adam z $$ \ beta_1 = 0,5 $$, $$ \ beta_2 = 0,999 $$ i stawka uczenia się około 10^{- 4} $$, aby zapewnić zrównoważone aktualizacje.
- Szkolenie obejmuje naprzemienne aktualizacje między dyskryminatorem a generatorem na podstawie ich odpowiednich strat na każdym etapie treningu lub mini-partii.
Dalsze warianty i badania
Badania nad funkcjami strat dla GAN nadal ewoluują. Niektóre badania wprowadzają sparametryzowane lub uogólnione funkcje strat (np. W oparciu o divergence Rnow Divergence lub Pearson Divergences) w celu zwiększenia stabilności i wydajności. Zastosowanie ich do gan RNN może odpowiednio obejmować modyfikację celów dyskryminatora i generatora.
Ponadto czasami przyjmowane są samoregularyzacja i straty złożone łączące straty przeciw przeciwni z rekonstrukcją lub klasyfikacją w zależności od zadania, takich jak generowanie tekstu lub synteza serii czasowych.
Streszczenie
Typowe funkcje strat RNN-GAN z Adam Optimizer wykorzystują straty przeciwne inspirowane oryginalnym GAN, w tym binarną entropię krzyżową, najmniejsze kwadraty lub straty Wasserstein zaadaptowane do sekwencyjnych danych. Ustawienia parametrów Adama są dostosowywane specjalnie pod kątem stabilności GAN. Kombinacje ze stratami specyficznymi dla sekwencji są również wspólne dla lepszego treningu generatora prowadzenia na temat wzorców czasowych. Zespół ten ułatwia szkolenie przeciwnych modeli RNN, skutecznie generujące lub modelowanie sekwencji.
Odniesienia do tych informacji pochodzą z literatury fundamentalnej GAN, aplikacji RNN-GAN i wzorców użytkowania optymalizatora.