Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Aké sú typické funkcie straty používané v RNN-Gans s Adam Optimizer


Aké sú typické funkcie straty používané v RNN-Gans s Adam Optimizer


Opakujúce sa generačné kontradiktórne kontradiktórne siete (RNN-gans) kombinujú možnosti časového modelovania RNN s princípmi kontradiktórnych tréningov GAN. Stratové funkcie používané v RNN-Gans sú zvyčajne navrhnuté tak, aby optimalizovali ciele generátora a diskriminátora v tomto rámci, a keď sú spárované s Adamovým optimalizátorom, ich správanie a konvergencia sú ovplyvňované jeho výraznými vlastnosťami adaptívnej rýchlosti učenia.

Typické funkcie straty v dbákoch RNN

Gans RNN využíva variácie stratových funkcií na základe pôvodnej formulácie GAN. Najbežnejšie príslušné stratové funkcie sú:

- Strata binárnej krížovej entropie (strata BCE): Toto je bežná voľba pre diskriminátora a generátor, kde sa diskriminátor pokúša odlíšiť skutočné od falošných sekvencií a generátor sa pokúša oklamať diskriminátor vytvorením realistických sekvencií. Strata BCE meria vzdialenosť medzi predpokladanými pravdepodobnosťami a štítkami pozemnej pravdy (skutočné = 1, falošné = 0).

- Strata kontradiktradácií (Strata minimax): Cieľom pôvodnej straty Gan je vyriešiť hru minimax medzi generátor $$ G $$ a diskriminátor $$ D $$. Diskriminátor maximalizuje pravdepodobnosť správneho klasifikácie skutočných a falošných vzoriek, zatiaľ čo generátor minimalizuje pravdepodobnosť diskriminátora správne klasifikáciu jeho falzifikátov:
$$
\ min_g \ max_d v (d, g) = \ Mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ Mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (z))))))
$$
Tu je $$ x $$ skutočná sekvencia a $$ Z $$ je vstupom šumu do generátora. Táto strata sa uplatňuje pri každom časovom období alebo nad plným výstupom sekvencie v závislosti od implementácie.

- Strata najmenších štvorcov (LSGAN): Na stabilizáciu tréningu strata najmenších štvorcov nahrádza stratu BCE. Penalizuje vzorky na základe ich vzdialenosti od hranice rozhodnutia, čo podporuje výstupy bližšie k skutočným údajom:
Pre diskriminátor:
$$
\ frac {1} {2} \ Mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2> \ Mathbb {e} _ {z \ sim p_z} [d (g (z))^2])
$$
Pre generátor:
$$
\ frac {1} {2} \ Mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$$
Táto strata je často uprednostňovaná v GAN založených na sekvenciách vrátane gans RNN, aby sa zabránilo miznúcim gradientom.

- Strata Wasserstein (Wgan): Niektoré modely RNN-Gan používajú stratu Wasserstein na zlepšenie stability a interpretovateľnosti tréningu. Táto strata využíva vzdialenosť Movera Zeme ako kritérium s kritikom (namiesto diskriminátora), ktorý skóruje skôr sekvencie ako ich klasifikáciu:
$$
\ min_g \ max_ {d \ in \ Mathcal {d> \ Mathbb {e} _ {\ sim p_ {data> [d (x)] - \ Mathbb {e} _ {sim p_z} [d (g (z))]
$$
Kde $$ \ MathCal {d} $$ je sada funkcií 1-Lipschitz. Strata sa vyhýba satučným gradientom, čo môže byť rozhodujúce pre sekvenčné údaje.

-Straty na úrovni sekvencie: Okrem kontradiktópskych strát, sekvenčných alebo straty špecifických pre danú úlohu, ako je odhad maximálnej pravdepodobnosti (MLE) alebo straty vynútenia učiteľom, sa môžu kombinovať so stratou konverzárnej straty, aby sa efektívnejšie usmerňovali tréning generátora.

Použitie Adam Optimizer v RNN-Gans

Optimalizátor Adam je široko prijatý v GANS, vrátane RNN-Gans, kvôli svojmu adaptívnemu odhadu momentu, z ktorého prospieva zložitému kontradiktórniu. Adam upravuje mieru učenia individuálne pre každý parameter na základe odhadov prvých (priemerných) a druhých (rozptylových) momentov gradientov počas tréningu.

Adamove kľúčové parametre, ktoré sa zvyčajne používajú pri výcviku RNN-Gan, sú:

- Miera výučby ($$ \ alfa $$): Všeobecne stanovte malú (napr. 0,0001 až 0,001) pre stabilný tréning GAN.
- miera exponenciálneho rozkladu pre odhady prvého momentu ($$ \ beta_1 $$): bežne sa nastavuje okolo 0,5 až 0,9; nižšie ako štandard 0,9 na zníženie oscilácií v tréningu GAN.
- miera exponenciálneho rozkladu pre odhady druhého momentu ($$ \ beta_2 $$): zvyčajne sa udržiava na 0,999.
- Epsilon ($$ \ epsilon $$): malá konštanta ako $$ 10^{- 8} $$ na udržanie numerickej stability.

Adamova rovnováha hybnosti a miery adaptívneho učenia pomáha prekonať problémy so nestacionárnymi kontradiktórnymi stratami, najmä pri sekvenčnom modelovaní s RNN, kde môžu byť gradienty nestabilné alebo riedke.

Common Practice Nastavenie príkladu

V praktických nastaveniach RNN-Gan by človek zvyčajne videl niečo ako:

- Diskriminátor a generátor optimalizované osobitne so stratou binárnej krížovej entropie alebo jeho variantmi.
- Použitie Adam Optimalizátor s $$ \ beta_1 = 0,5 $$, $$ \ beta_2 = 0,999 $$ a učenie sa okolo 10^{- 4} $$, aby ste zaistili vyvážené aktualizácie.
- Školenie zahŕňa striedanie aktualizácií medzi diskriminátorom a generátorom na základe ich príslušných strát v každom kroku školenia alebo mini-šarže.

Ďalšie variácie a výskum

Výskum stratových funkcií pre GANS sa neustále vyvíja. Niektoré štúdie zavádzajú parametrizované alebo zovšeobecnené funkcie straty (napr. Na základe Ré © NYI Divergence alebo Pearson Divergences), aby sa zvýšila stabilita a výkon. Ak sa ich uplatňuje na RNN-Gans, by sa podľa toho mohlo týkať modifikácie cieľov diskriminátora a generátora.

Okrem toho sa samorekularizácia a zložené straty kombinujúce stratu kontradiktórnej straty s rekonštrukciou alebo klasifikačnými stratami sa niekedy prijímajú v závislosti od úlohy, ako je syntéza generovania textu alebo časových radov.

Zhrnutie

Typické funkcie straty RNN-Gan s Optimalizátorom Adam používajú kontradiktórne straty inšpirované pôvodným GAN, vrátane binárnej krížovej entropie, najmenších štvorcov alebo straty wassersteínu prispôsobených pre sekvenčné údaje. Nastavenie parametrov Adam sú upravené špeciálne pre stabilitu GAN. Kombinácie so stratami špecifickými pre sekvenciu sú tiež bežné pre lepší výcvik generátora generátora o časových vzorcoch. Tento súbor uľahčuje výcvik kontradiktórnych modelov RNN generujúcich alebo modelovanie sekvencií efektívne.

Odkazy na tieto informácie pochádzajú zo základnej literatúry Gan, aplikácií RNN-Gan a optimalizátorov.