Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Quali sono le funzioni di perdita tipiche utilizzate nei gans RNN con Adam Optimizer


Quali sono le funzioni di perdita tipiche utilizzate nei gans RNN con Adam Optimizer


Le reti di avversaria generative reti-basate sulla rete neurale (RNN-GANS) combinano le capacità di modellazione temporale degli RNN con i principi di formazione contraddittoria delle GAS. Le funzioni di perdita utilizzate nei gans RNN sono in genere progettate per ottimizzare gli obiettivi sia del generatore che del discriminatore in questo quadro e, se abbinati all'ottimizzatore Adam, il loro comportamento e convergenza sono influenzati dalle sue distintive proprietà del tasso di apprendimento adattivo.

funzioni di perdita tipiche nei gans RNN

I gan RNN utilizzano variazioni delle funzioni di perdita in base alla formulazione GAN originale. Le funzioni di perdita più comuni coinvolte sono:

- Perdita binaria incrociata (perdita di BCE): questa è una scelta comune per il discriminatore e il generatore in cui il discriminatore cerca di distinguere le sequenze reali e i tentativi del generatore di ingannare il discriminatore producendo sequenze realistiche. La perdita di BCE misura la distanza tra le probabilità previste e le etichette di verità di base (reale = 1, falso = 0).

- Perdita contraddittoria (Minimax Loss): la perdita GAN originale mira a risolvere un gioco MIMILAX tra il generatore $$ G $$ e discriminatore $$ D $$. Il discriminatore massimizza la probabilità di classificare correttamente campioni reali e falsi, mentre il generatore minimizza la probabilità del discriminatore che classifica correttamente i suoi falsi:
$$
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (z)))]
$$
Qui, $$ x $$ è una sequenza reale e $$ z $$ è un ingresso di rumore per il generatore. Questa perdita viene applicata ad ciascun timestep o su output di sequenza completa a seconda dell'implementazione.

- Perdita dei minimi quadrati (LSGAN): per stabilizzare l'allenamento, la perdita dei minimi quadrati sostituisce la perdita di BCE. Penalizza i campioni in base alla loro distanza dal confine decisionale, incoraggiando i risultati più vicini ai dati reali:
Per il discriminatore:
$$
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data>} [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim P_z} [d (g (z)^2]
$$
Per il generatore:
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$$
Questa perdita è spesso preferita nei GAN basati su sequenze, compresi i gans RNN per evitare gradienti di fuga.

- Wasserstein Loss (WGAN): alcuni modelli RNN-GAN utilizzano la perdita di Wasserstein per migliorare la stabilità e l'interpretazione della formazione. Questa perdita usa la distanza del motore della Terra come criterio con un critico (anziché un discriminatore) che segna sequenze piuttosto che classificarle:
$$
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (g (z))]
$$
Dove $$ \ mathcal {d} $$ è l'insieme di funzioni 1-lipchitz. La perdita evita i gradienti di satura, che possono essere fondamentali per i dati sequenziali.

-Perdite a livello di sequenza: oltre a perdite contraddittorie, perdite specifiche per sequenza o specifiche dell'attività come la stima della massima verosimiglianza (MLE) o le perdite di forzatura degli insegnanti potrebbero essere combinate con perdite contraddittorie per guidare la formazione del generatore in modo più efficace sulle sequenze.

Utilizzo di Adam Optimizer in RNN-Gans

Adam Optimizer è ampiamente adottato nei GAN, compresi i gans RNN, a causa della sua stima del momento adattivo che avvantaggia la complessa formazione contraddittoria. Adam regola i tassi di apprendimento individualmente per ciascun parametro in base alle stime dei primi momenti (media) e della seconda (varianza) dei gradienti durante l'allenamento.

I parametri chiave di Adam in genere utilizzati nella formazione RNN-GAN sono:

- Tasso di apprendimento ($$ \ alpha $$): generalmente impostato piccolo (ad esempio, da 0.0001 a 0,001) per una formazione GAN stabile.
- tasso di decadimento esponenziale per le stime del primo momento ($$ \ beta_1 $$): comunemente impostato da 0,5 a 0,9; inferiore allo standard 0,9 per ridurre le oscillazioni nell'allenamento GAN.
- Tasso di decadimento esponenziale per le stime del secondo momento ($$ \ beta_2 $$): in genere mantenuto a 0,999.
- Epsilon ($$ \ Epsilon $$): una piccola costante come $$ 10^{- 8} $$ per mantenere la stabilità numerica.

L'equilibrio di Adam tra slancio e tassi di apprendimento adattivo aiuta a superare i problemi con perdite contraddittorie non stazionarie, in particolare nella modellazione di sequenze con RNN in cui i gradienti possono essere instabili o scarsi.

Esempio di configurazione della pratica comune

Nelle pratiche configurazioni di RNN-GAN, si vedrebbero in genere qualcosa di simile:

- Discriminatore e generatore ottimizzati separatamente con la perdita binaria-entropia o le sue varianti.
- Utilizzando Adam Optimizer con $$ \ beta_1 = 0,5 $$, $$ \ beta_2 = 0,999 $$ e tasso di apprendimento intorno a $$ 10^{- 4} $$ per garantire aggiornamenti equilibrati.
- La formazione comporta aggiornamenti alterni tra discriminatore e generatore in base alle rispettive perdite in ogni fase di allenamento o mini-batch.

Ulteriori varianti e ricerche

La ricerca sulle funzioni di perdita per GAN continua continua a evolversi. Alcuni studi introducono funzioni di perdita parametrizzate o generalizzate (ad esempio, basate su divergenze di Ré NYI o divergenze di Pearson) per migliorare la stabilità e le prestazioni. L'applicazione di questi ai gan RNN potrebbe comportare la modifica di conseguenza di discriminatore e obiettivi del generatore.

Inoltre, le perdite di autoregolarizzazione e composito che combinano perdite contraddittorie con perdite di ricostruzione o classificazione vengono talvolta adottate a seconda del compito, come la generazione di testo o la sintesi della serie temporale.

Riepilogo

Le tipiche funzioni di perdita di RNN-GAN con Adam Optimizer utilizzano perdite contraddittorie ispirate al GAN ​​originale, tra cui le perdite binarie incrociate, i minimi quadrati o le perdite di wasserstein adattate per dati sequenziali. Le impostazioni dei parametri di Adam sono regolate specificamente per la stabilità GAN. Le combinazioni con perdite specifiche della sequenza sono comuni anche per una migliore formazione del generatore di guida su modelli temporali. Questo ensemble facilita la formazione dei modelli RNN contraddittori che generano o modellano sequenze efficacemente.

I riferimenti per queste informazioni derivano dalla letteratura fondamentale GAN, dalle applicazioni RNN-GAN e dai modelli di utilizzo dell'ottimizzatore.