Les réseaux adversaires génératifs (GANS) utilisent de nombreuses fonctions de perte au-delà de la perte standard de GaN, chacune conçue pour relever des défis tels que l'instabilité de la formation, l'effondrement du mode, les gradients de fuite et les problèmes de convergence. Vous trouverez ci-dessous des exemples clés de fonctions de perte de GaN diverses, largement recherchées et pratiquement utilisées:
Perte standard de Gan (perte de Min-Max)
La perte d'origine du GAN du papier séminal de 2014 par Goodfellow et al. Formule un jeu minimax à deux joueurs entre le générateur et le discriminateur. Le discriminateur essaie de classer correctement les données réelles et fausses en maximisant la probabilité d'attribuer des étiquettes correctes, tandis que le générateur essaie de tromper le discriminateur en minimisant la probabilité que le discriminateur identifie correctement les fausses données. Cela peut être écrit comme:
- Perte de discriminatrice: maximiser $$ \ log d (x) + \ log (1 - d (g (z))) $$
- Perte du générateur: minimiser $$ \ log (1 - d (g (z))) $$
Cependant, cette perte souffre souvent de saturation du générateur, où le générateur reçoit des gradients de disparaître et cesse de s'améliorer pendant l'entraînement.
Perte de GaN non saturant
Une variante commune qui améliore la stabilité de la formation modifie l'objectif du générateur de maximiser à la place $$ \ log d (g (z)) $$ plutôt que de minimiser $$ \ log (1 - d (g (z))) $$. Cette alternative évite la saturation du générateur en fournissant des gradients plus forts au début de l'entraînement. Il recadre le générateur comme maximisant la probabilité du discriminateur d'étiqueter les échantillons générés comme réels.
Perte de gan de Wasserstein
La perte de Wasserstein, introduite en 2017, remplace le discriminateur de classification binaire standard par un "critique" qui marque des échantillons à l'échelle continue plutôt que de les classer comme réels ou faux. La perte est basée sur la distance de la terre (Wasserstein-1) entre les distributions réelles et générées, qui fournit des gradients plus fluide et atténue l'effondrement du mode et les gradients de disparaître. La couche de sortie du discriminateur est passée de l'activation sigmoïde à la linéaire, et l'écrêtage du poids ou la pénalité de gradient est introduit pour appliquer la continuité de Lipschitz:
- Perte de critique: maximiser $$ \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (g (z))] $$
- Perte du générateur: minimiser $$ \ mathbb {e} _ {z \ sim p_z} [d (g (z))] $$
Cette fonction de perte est devenue une norme pour une formation GAN plus stable.
Perte de gan des moindres carrés
Proposé en 2016, cette perte remplace la perte binaire de l'entropie avec une perte de moindres carrés pour pénaliser les échantillons qui se trouvent loin de la frontière de décision. Le discriminateur tente de régresser les échantillons réels à 1 et de faux échantillons à 0 en utilisant l'erreur quadratique moyenne, tandis que le générateur tente de générer des échantillons dont les prédictions sont proches de 1. Cela réduit les gradients de disparition et améliore la qualité du gradient, aidant le générateur à mieux apprendre:
- Perte de discriminatrice: minimiser $$ (d (x) - 1) ^ 2 + (d (g (z))) ^ 2 $$
- Perte du générateur: minimiser $$ (d (g (z)) - 1) ^ 2 $$
Cette approche donne souvent des images de meilleure qualité et une formation plus stable.
Perte
La perte de charnière est une autre variante de perte contradictoire qui traite la formation discriminatrice comme un problème de classification basé sur la marge plutôt que comme probabiliste. Le discriminateur est formé pour maximiser la perte de charnière, poussant des échantillons réels au-dessus d'une marge et de faux échantillons en dessous, tandis que le générateur essaie de maximiser les scores de discriminatrice pour les échantillons générés. Officiellement:
- Perte discriminatrice: $$ \ max (0, 1 - d (x)) + \ max (0, 1 + d (g (z))) $$
- Perte du générateur: $$ - d (g (z)) $$
La perte de charnière a été utilisée dans des architectures GaN populaires de haute qualité telles que Biggan pour promouvoir un meilleur flux de gradient et une stabilité.
Pénalité du gradient de Wasserstein (WGAN-GP)
Une amélioration du Gan Wasserstein qui remplace l'écrasement du poids par une pénalité de gradient pour appliquer la contrainte de Lipschitz plus efficacement. La pénalité de gradient ajoute un terme de régularisation qui pénalise la norme du gradient discriminateur s'écartant de 1 sur des échantillons interpolés entre réel et faux. Cela améliore la stabilité et la convergence de la formation.
- Perte Identique à Wgan plus $$ \ lambda \ mathbb {e} _ {\ hat {x> [(\ | \ nabla _ {\ hat {x> d (\ hat {x}) \ | _2 - 1) ^ 2] $$ Pinélat de gradation à terme
Ici $$ \ hat {x} $$ sont des échantillons interpolés entre les données réelles et générées.
Perte de GaN relativiste
Cette perte compare les sorties discriminatrices sur des échantillons réels et faux de manière relativiste plutôt que de probabilités absolues. Le discriminateur prédit si les données réelles sont plus réalistes que les fausses données, et le générateur s'entraîne en conséquence, ce qui peut entraîner de meilleurs gradients et moins de effondrement de mode.
- Discriminator essaie de maximiser $$ \ log \ sigma (d (x) - d (g (z))) $$ où $$ \ Sigma $$ est sigmoïde
- Générateur essaie de maximiser $$ \ log \ Sigma (d (g (z)) - d (x)) $$
Cette perspective relative pousse le générateur et le discriminateur pour évaluer les échantillons les uns contre les autres.
Perte
Récemment développé grâce à une approche de programmation génétique de la conception de la perte optimale, la perte ganétique montre des performances et une stabilité supérieures dans divers ensembles de données, y compris des images médicales. La perte ganétique intègre des éléments de l'entropie croisée binaire avec l'autorégularisation, améliorant la reproductibilité de l'entraînement et l'effondrement du mode de réduction. Il a été appliqué efficacement pour la génération d'images et la détection des anomalies dans l'imagerie médicale, surpassant les fonctions de perte traditionnelle en stabilité et en qualité. La perte peut être adaptée à la fois pour les régimes de formation du générateur et du discriminateur pour améliorer les résultats.
Équilibre limite GAn (commencé) Perte
Cette perte équilibre le générateur et le discriminateur à travers un terme d'équilibre qui mesure le rapport des pertes de reconstruction chez un discriminateur d'autoencodeur. Begin utilise une fonction de perte basée sur l'erreur de reconstruction du discriminateur, favorisant la génération d'images de qualité grâce à un processus de recherche d'équilibre entre le générateur et la puissance du discriminateur.
- Perte de discriminatrice basée sur l'erreur de reconstruction Autoencoder pour des échantillons réels et faux
- Le générateur essaie de minimiser l'erreur de reconstruction du discriminateur des faux échantillons
Le démarrage améliore la stabilité de la formation avec un paramètre de compromis contrôlé.
Perte de dragan
Une variation visant à améliorer le GAN d'origine en modifiant la pénalité de gradient à appliquer uniquement autour du collecteur de données, appelé Dragan (régularisation discriminatrice avec pénalité de gradient). Il pénalise les gradients de discriminatrice autour de données réelles perturbées de bruit pour encourager les limites de décision plus lisses et réduire l'effondrement du mode.
- Perte similaire à WGAN-GP mais avec une pénalité de gradient local autour des points de données réels perturbés.
La perte de correspondance des fonctionnalités
Au lieu d'utiliser directement la sortie du discriminateur pour la perte, le générateur est formé pour faire correspondre les fonctionnalités intermédiaires extraites d'échantillons réels et générés par le discriminateur. Cela conduit à une formation plus stable et réduit l'effondrement du mode en encourageant le générateur à capturer des statistiques d'ordre supérieur.
- Perte du générateur: minimiser $$ \ | \ text {fonctionnalités} (x) - \ text {fonctionnalités} (g (z)) \ | $$ où les fonctionnalités sont extraites à une couche du discriminateur.
Mode de recherche de mode
Cette perte encourage la diversité dans les sorties générées par l'effondrement explicite du mode de pénalisation. Il compare les distances dans l'espace latent et l'espace d'image entre des paires d'échantillons générés, favorisant le générateur pour produire des échantillons plus divers.
- La perte du générateur comprend la distance de maximisation du terme dans l'espace de sortie par rapport à la distance dans l'espace latent parmi les paires d'échantillons.
Caractéristiques correspondant et pertes perceptuelles
Ces pertes combinent une perte contradictoire avec des pertes perceptuelles ou basées sur des fonctionnalités supplémentaires calculées à l'aide de réseaux pré-étendus (par exemple, les réseaux VGG). De telles pertes appliquent que les images générées trompent non seulement le discriminateur mais correspondent également aux caractéristiques perceptuelles des images réelles, conduisant à des sorties plus nettes et plus réalistes.
- Le générateur minimise la somme pondérée de la perte adversaire et des termes de perte de correspondance perceptuelle / des fonctionnalités.
Les écarts les moins absolus (L1) et les moindres carrés (L2) dans les Gans conditionnels
Dans les Gans conditionnels utilisés pour les tâches de traduction d'images, des pertes supplémentaires en L1 ou L2 entre les images de vérité générées et du sol sont incorporées aux côtés des pertes adversaires. Ces pertes encouragent la précision au niveau des pixels et réduisent les artefacts dans les résultats.
- Perte du générateur = perte adversaire + $$ \ lambda \ | G (z) - x \ | _1 $$ ou $$ \ lambda \ | G (z) - x \ | _2 ^ 2 $$ où $$ x $$ est l'image cible.
Perte moyenne de gan (ragan) relativiste
Extension du GAn relativiste, Ragan utilise la sortie de discriminatrice moyenne pour des images réelles et fausses pour stabiliser la formation en fournissant une comparaison plus globale plutôt que par échantillon. Cette approche permet de réduire la confiance excessive dans les prévisions du discriminateur et améliore le flux de gradient.
- La perte implique des différences de sortie de discriminatrice entre un échantillon et une sortie moyenne sur les classes opposées.
Perte de variation totale
Souvent combinée avec une perte adversaire pour encourager la douceur spatiale et réduire le bruit, la perte de variation totale pénalise les changements d'intensité rapide dans les images générées, améliorant la qualité visuelle.
- Le générateur minimise la norme de variation totale des images générées ainsi qu'une perte adversaire.
Perte d'auto-agencement
Intègre des mécanismes d'auto-agencement dans les architectures discriminatrices et générateurs, modifiant les fonctions de perte pour refléter les caractéristiques pondérées en fonction de l'attention pour capturer les dépendances à longue portée, ce qui aide la génération d'images détaillées et cohérentes.
- Les pertes restent comme dans les Gans standard mais avec les réseaux augmentés d'auto-agencement.
Perte limite pour les gans de segmentation
Dans les Gans de segmentation, les fonctions de perte peuvent inclure des pénalités sensibles aux limites pour améliorer la précision à proximité des bords de l'objet, combinant la perte adversaire avec les termes de la limite / de bord.
- La perte de générateur comprend des objectifs de correspondance des limites ainsi que des composants adversaires traditionnels.
Perte contrastive dans les gans
Certaines variantes de GaN intègrent des composantes de perte contrastée visant à apprendre de meilleures intérêts d'intégration en rapprochant des échantillons similaires et en éloignant des échantillons différents, en améliorant l'apprentissage de la représentation dans les cadres Gan.
- Perte contrastive ajoutée aux objectifs du générateur ou du discriminateur pour améliorer la qualité des fonctionnalités.
Perte de Gan à base d'énergie
Les Gans à base d'énergie formulent le discriminateur comme une fonction énergétique qui attribue une faible énergie aux données réelles et à une grande énergie aux fausses données. La perte de formation optimise le paysage énergétique plutôt que des probabilités de classification explicites, ce qui peut conduire à une formation plus stable.
- L'énergie du discriminateur minimisée pour les échantillons réels, maximisé pour de faux échantillons; Le générateur optimise pour réduire l'énergie sur les échantillons générés.
Ces exemples illustrent la riche diversité des fonctions de perte développée pour améliorer la stabilité de la formation des GAN, les performances et les résultats spécifiques à l'application. Chaque fonction de perte cible des défis ou des caractéristiques spécifiques des distributions de données, de nombreuses architectures GaN modernes combinant souvent plusieurs termes de perte pour de meilleurs résultats. L'évolution continue de ces fonctions de perte reflète les progrès en cours dans la recherche sur l'apprentissage contradictoire.