L'écrêtage du poids est une technique initialement introduite dans les Gans Wasserstein (WGANS) pour appliquer la contrainte de continuité de Lipschitz requise par la métrique de distance Wasserstein. Bien qu'il ait une simplicité de calcul et un certain succès initial, la coupure de poids dans les WGANS introduit plusieurs problèmes notables qui affectent la stabilité de la formation, la capacité du modèle et les performances globales.
L'un des principaux problèmes de coupure de poids est qu'il agit comme une contrainte dure sur les poids du modèle en les tronquant dans une plage fixe. Cette opération restrictive biaise le critique (discriminateur dans les Gans traditionnels) vers l'apprentissage des fonctions trop simples, limitant sa capacité à modéliser efficacement les distributions de données complexes. Le coup de découpage oblige des poids pour rester dans une petite boîte, ce qui conduit souvent le critique à ne pas capturer des moments d'ordre supérieur et des détails plus fins des données. Cette contrainte peut faire en sorte que la fonction du critique devienne trop simpliste pour estimer avec précision la distance Wasserstein, ce qui est essentiel pour une formation stable en GaN.
Un autre problème connexe est l'instabilité de la formation causée par l'écrasement du poids. La plage d'écrêtage doit être soigneusement réglée: si elle est réglée trop grande, la contrainte de Lipschitz est inadéquatement appliquée, conduisant potentiellement à une formation et à un effondrement instables; S'il est réglé trop petit, les gradients peuvent disparaître ou devenir trop petits pour des mises à jour efficaces, altérant l'apprentissage du modèle. Les gradients de disparition se produisent généralement lorsque les poids des critiques sont coupés à des valeurs excessivement faibles, en particulier dans les architectures avec des réseaux profonds, pas de normalisation par lots ou des composants récurrents. Ce problème de fuite de gradient survient parce que les poids des discriminateurs sont limités à une plage étroite, réduisant la capacité du critique à fournir des commentaires significatifs au générateur pendant l'entraînement.
L'écrêtage du poids conduit également à des distributions de poids pathologiques. Empiriquement, de nombreux poids critiques ont tendance à s'accumuler aux limites de la gamme d'écrasement, ce qui restreint l'expressivité et la diversité des poids apprises. Cet effet de saturation entrave l'optimisation car les mises à jour du gradient poussent les poids vers des limites de découpage à plusieurs reprises, provoquant une exploration des paramètres inefficaces et une convergence plus lente. De plus, l'élimination du poids déforme le paysage d'optimisation, ce qui signifie que les gradients et la surface globale de perte de critique deviennent moins lisses et plus difficiles à naviguer avec des méthodes basées sur le gradient.
En raison de ces problèmes, l'écrasement du poids peut rendre difficile de former de manière fiable des architectures de critiques très profondes. La contrainte dure imposée par l'écrêtage ne s'évalent pas bien vers des architectures de réseau plus grandes et plus complexes. Il est observé que même avec des techniques communes comme la normalisation par lots au sein du critique, les critiques profonds de Wgan ont souvent du mal à converger lorsque l'écrasement du poids est appliqué. Ces limites réduisent la flexibilité et la capacité du modèle lors de la modélisation des distributions complexes de données du monde réel, entraînant souvent une mauvaise qualité d'échantillon ou une formation défaillante.
Les papiers d'origine WGAN et les travaux suivants ont reconnu que l'écrasement du poids peut entraîner un comportement indésirable dans l'entraînement, en particulier pour les ensembles de données de grande dimension ou complexes. La méthode peut faire s'effondrer le critique à des fonctions plus simples, réduisant la qualité et la diversité des échantillons générés. Certaines recherches soulignent que l'écrêtage du poids biaise le critique vers des fonctions avec des gradients constants ou une norme de gradient considérablement réduite, qui contredit la contrainte idéale de Lipschitz d'avoir une norme de gradient près de une presque partout.
Pour résoudre ces inconvénients, des alternatives à l'écrasement du poids ont été proposées, notamment la méthode de pénalité de gradient (WGAN-GP). Contrairement à l'écrêtage dur, la pénalité de gradient impose une contrainte douce en pénalisant l'écart de la norme de gradient de celle, ce qui encourage les fonctions critiques plus lisses et plus réalistes. Cette pénalité est ajoutée en tant que terme supplémentaire dans la fonction de perte, en évitant le confinement rigide des poids et en permettant un apprentissage critique plus stable et expressif. Les approches basées sur la pénalité de gradient améliorent considérablement la stabilité de l'entraînement, la qualité de l'échantillon et la vitesse de convergence par rapport à l'écrasement du poids.
En résumé, les principaux problèmes de coupure de poids dans les WGANS comprennent:
- Une contrainte dure qui limite la complexité des critiques, conduisant à des discriminateurs trop simples.
- Instabilité de formation à partir d'une mauvaise sélection de gamme d'écrasement, provoquant des gradients de disparition ou d'explosion.
- Distributions de poids pathologique avec de nombreux poids saturés aux limites d'écrêtage.
- Optimisation inefficace due aux paysages de perte déformés et aux informations de gradient.
- Mauvais évolutivité et problèmes de convergence avec les architectures de critique profondes.
- Qualité inférieure des échantillons générés lors de la modélisation des données complexes.
- Expressivité globale limitée et incapacité à maintenir la continuité appropriée de Lipschitz de manière flexible.