Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Quelles sont les fonctions de perte typiques utilisées dans RNN-Gans avec Adam Optimizer


Quelles sont les fonctions de perte typiques utilisées dans RNN-Gans avec Adam Optimizer


Les réseaux adversaires génératifs (RNN-GANS) basés sur les réseaux neuronaux (RNN-GANS) combinent les capacités de modélisation temporelle des RNN avec les principes de formation adversaire des GAN. Les fonctions de perte utilisées dans RNN-GANS sont généralement conçues pour optimiser les objectifs du générateur et du discriminateur dans ce cadre, et lorsqu'ils sont associés à l'optimiseur ADAM, leur comportement et leur convergence sont influencés par ses propriétés distinctives de taux d'apprentissage adaptatif.

Fonctions de perte typiques dans RNN-GANS

RNN-GANS utilise des variations de fonctions de perte basées sur la formulation GAn d'origine. Les fonctions de perte les plus courantes impliquées sont:

- Perte binaire croisée (perte de BCE): Il s'agit d'un choix courant pour le discriminateur et le générateur où le discriminateur essaie de distinguer réel des fausses séquences et le générateur tente de tromper le discriminateur en produisant des séquences réalistes. La perte de BCE mesure la distance entre les probabilités prévues et les étiquettes de vérité au sol (réel = 1, faux = 0).

- Perte adversaire (perte de minimax): La perte de Gan d'origine vise à résoudre un jeu Minimax entre le générateur $$ G $$ et le discriminateur $$ D $$. Le discriminateur maximise la probabilité de classifier correctement les échantillons réels et faux, tandis que le générateur minimise la probabilité que le discriminateur classe correctement ses faux:
$$
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (z)))]
$$
Ici, $$ x $$ est une véritable séquence et $$ z $$ est une entrée de bruit pour le générateur. Cette perte est appliquée à chaque pas de temps ou sur la sortie de séquence complète en fonction de l'implémentation.

- Perte des moindres carrés (LSGAN): Pour stabiliser l'entraînement, la perte des moindres carrés remplace la perte de BCE. Il pénalise les échantillons en fonction de leur distance par rapport à la limite de décision, encourageant les sorties plus proches des données réelles:
Pour le discriminateur:
$$
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1) ^ 2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [d (g (z)) ^ 2]
$$
Pour le générateur:
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z)) - 1) ^ 2]
$$
Cette perte est souvent préférée dans les Gans basés sur des séquences, y compris les Gans RNN pour éviter de disparaître les gradients.

- Perte Wasserstein (WGAN): Certains modèles RNN-GAN utilisent la perte de Wasserstein pour améliorer la stabilité et l'interprétabilité de la formation. Cette perte utilise la distance du moteur de terre comme critère avec un critique (au lieu d'un discriminateur) qui marque des séquences plutôt que de les classer:
$$
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (g (z))]
$$
Où $$ \ Mathcal {d} $$ est l'ensemble des fonctions 1-lipschitz. La perte évite les gradients saturés, qui peuvent être critiques pour les données séquentielles.

- Pertes au niveau de la séquence: En plus des pertes contradictoires, des pertes spécifiques à la séquence ou spécifiques aux tâches telles que l'estimation du maximum de vraisemblance (MLE) ou les pertes de forçage des enseignants peuvent être combinées avec une perte adversaire pour guider la formation du générateur plus efficacement sur les séquences.

Utilisation d'Adam Optimizer dans RNN-GANS

L'optimiseur ADAM est largement adopté dans les Gans, y compris les RNN-Gans, en raison de son estimation du moment adaptatif qui profite à la formation adversaire complexe. Adam ajuste les taux d'apprentissage individuellement pour chaque paramètre en fonction des estimations des premiers moments (moyenne) et deuxième (variance) des gradients pendant la formation.

Les paramètres clés d'Adam généralement utilisés dans la formation RNN-GAN sont:

- Taux d'apprentissage ($$ \ alpha $$): Généralement réglé petit (par exemple, 0,0001 à 0,001) pour une formation stable en Gan.
- Taux de désintégration exponentielle pour les premiers instants ($$ \ beta_1 $$): se fixant généralement autour de 0,5 à 0,9; inférieur à la norme 0,9 pour réduire les oscillations dans la formation GaN.
- Taux de désintégration exponentielle pour les estimations du deuxième moment ($$ \ beta_2 $$): généralement maintenue à 0,999.
- epsilon ($$ \ epsilon $$): une petite constante comme $$ 10 ^ {- 8} $$ pour maintenir la stabilité numérique.

L'équilibre de l'élan et des taux d'apprentissage adaptatif d'Adam aide à surmonter les problèmes avec des pertes adversaires non stationnaires, en particulier dans la modélisation de séquences avec des RNN où les gradients peuvent être instables ou clairsemés.

Exemple de configuration de pratique commun

Dans les configurations pratiques RNN-GAN, on verrait généralement quelque chose comme:

- Discriminateur et générateur optimisé séparément avec une perte binaire de l'entropie ou ses variantes.
- Utilisation de l'optimiseur ADAM avec $$ \ beta_1 = 0,5 $$, $$ \ beta_2 = 0,999 $$, et le taux d'apprentissage autour de $$ 10 ^ {- 4} $$ pour assurer des mises à jour équilibrées.
- La formation implique des mises à jour alternées entre le discriminateur et le générateur en fonction de leurs pertes respectives à chaque étape de formation ou mini-lots.

Variations et recherches supplémentaires

La recherche sur les fonctions de perte pour les Gans continue de faire évoluer. Certaines études introduisent des fonctions de perte paramétrées ou généralisées (par exemple, basées sur la divergence de Rã © NYI ou les divergences de Pearson) pour améliorer la stabilité et les performances. Les appliquer à RNN-Gans pourraient impliquer la modification des objectifs du discriminateur et du générateur en conséquence.

De plus, l'autorégularisation et les pertes composites combinant la perte adversaire avec des pertes de reconstruction ou de classification sont parfois adoptées en fonction de la tâche, telles que la génération de texte ou la synthèse des séries chronologiques.

Résumé

Les fonctions de perte RNN-GAN typiques avec ADAM Optimizer utilisent des pertes adversares inspirées du GAn d'origine, y compris l'entropie croisée binaire, les moindres carrés ou les pertes de wasserstein adaptées pour les données séquentielles. Les paramètres d'Adam sont ajustés spécifiquement pour la stabilité du GAN. Les combinaisons avec des pertes spécifiques à la séquence sont également courantes pour une meilleure formation de générateur de guidage sur les modèles temporels. Cet ensemble facilite la formation des modèles RNN adversaires générant efficacement des séquences.

Les références pour ces informations proviennent de la littérature fondamentale GAN, des applications RNN-GAN et des modèles d'utilisation des optimificateurs,.