El recorte de peso es una técnica introducida originalmente en Wasserstein Gans (WGAN) para hacer cumplir la restricción de continuidad de Lipschitz requerida por la métrica de distancia de Wasserstein. Si bien tiene simplicidad computacional y algo de éxito inicial, el recorte de peso en WGAN introduce varios problemas notables que afectan la estabilidad del entrenamiento, la capacidad del modelo y el rendimiento general.
Uno de los principales problemas con el recorte de peso es que actúa como una restricción dura en los pesos del modelo al truncarlos dentro de un rango fijo. Esta operación restrictiva sesga al crítico (discriminador en Gans tradicionales) para aprender funciones demasiado simples, lo que limita su capacidad para modelar distribuciones de datos complejas de manera efectiva. El recorte obliga a los pesos a permanecer en una caja pequeña, lo que a menudo lleva a que el crítico no capture momentos de orden superior y detalles más finos de los datos. Esta restricción puede hacer que la función del crítico se vuelva demasiado simplista para estimar con precisión la distancia de Wasserstein, que es esencial para el entrenamiento de GaN estable.
Otro problema relacionado es la inestabilidad de entrenamiento causada por el recorte de peso. El rango de recorte debe ajustarse cuidadosamente: si se establece demasiado grande, la restricción de Lipschitz se aplica inadecuadamente, lo que potencialmente conduce al entrenamiento inestable y al colapso del modo; Si se establece demasiado pequeño, los gradientes pueden desaparecer o volverse demasiado pequeños para actualizaciones efectivas, lo que perjudica el aprendizaje del modelo. Los gradientes de desaparición generalmente ocurren cuando los pesos críticos se recortan a valores excesivamente bajos, especialmente en arquitecturas con redes profundas, sin normalización por lotes o componentes recurrentes. Este problema de desaparición de gradiente surge porque los pesos de los discriminadores se limitan a un rango estrecho, reduciendo la capacidad del crítico para proporcionar comentarios significativos al generador durante el entrenamiento.
El recorte de peso también conduce a distribuciones patológicas de peso. Empíricamente, muchos pesos críticos tienden a acumularse en los límites del rango de recorte, lo que restringe la expresividad y la diversidad de los pesos aprendidos. Este efecto de saturación obstaculiza la optimización porque las actualizaciones de gradiente empujan los pesos hacia los límites de recorte repetidamente, causando una exploración de parámetros ineficiente y una convergencia más lenta. Además, el recorte de peso distorsiona el panorama de optimización, lo que significa que los gradientes y la superficie general de pérdida de crítica se vuelven menos suaves y difíciles de navegar con métodos basados en gradientes.
Debido a estos problemas, el recorte de peso puede dificultar la capacitación de arquitecturas críticas muy profundas de manera confiable. La restricción dura impuesta por el recorte no escala bien a arquitecturas de red más grandes y complejas. Se observa que incluso con técnicas comunes como la normalización por lotes dentro del crítico, los críticos de WGan profundos a menudo luchan por converger cuando se aplica el recorte de peso. Estas limitaciones reducen la flexibilidad y la capacidad del modelo al modelar distribuciones complejas de datos del mundo real, lo que a menudo resulta en una mala calidad de muestra o capacitación fallida.
Los documentos WGan originales y los trabajos posteriores han reconocido que el recorte de peso puede conducir a un comportamiento no deseado en el entrenamiento, especialmente para conjuntos de datos de alta dimensión o complejos. El método puede hacer que el crítico colapse en funciones más simples, reduciendo la calidad y la diversidad de las muestras generadas. Algunas investigaciones señala que el recorte de peso sesga al crítico hacia las funciones con gradientes constantes o una norma de gradiente sustancialmente reducida, lo que contradice la restricción ideal de Lipschitz de tener una norma de gradiente cerca de una casi en todas partes.
Para abordar estos inconvenientes, se han propuesto alternativas al recorte de peso, sobre todo el método de penalización de gradiente (WGAN-GP). A diferencia del recorte duro, la penalización de gradiente impone una restricción suave al penalizar la desviación de la norma de gradiente de uno, lo que fomenta funciones críticas más suaves y más realistas. Esta penalización se agrega como un término adicional en la función de pérdida, evitando el confinamiento rígido de los pesos y permitiendo un aprendizaje crítico más estable y expresivo. Los enfoques basados en penalización de gradiente mejoran significativamente la estabilidad del entrenamiento, la calidad de la muestra y la velocidad de convergencia en comparación con el recorte de peso.
En resumen, los principales problemas con el recorte de peso en los WGAN incluyen:
- Una restricción difícil que limita la complejidad crítica, lo que lleva a discriminadores demasiado simples.
- Inestabilidad de entrenamiento de la selección de rango de recorte inadecuado, causando gradientes de desaparición o explosión.
- Distribuciones de peso patológico con muchos pesos saturantes en los límites de recorte.
- Optimización ineficiente debido a paisajes de pérdida distorsionados e información de gradiente.
- Mala escalabilidad y problemas de convergencia con arquitecturas críticas profundas.
- MÁS CALIDAD DE MUESTRAS GENERADAS Al modelar datos complejos.
- La expresividad limitada general y la falla para mantener la continuidad adecuada de Lipschitz de manera flexible.