Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ¿Cuáles son las funciones de pérdida típicas utilizadas en RNN-Gans con Adam Optimizer?


¿Cuáles son las funciones de pérdida típicas utilizadas en RNN-Gans con Adam Optimizer?


Las redes adversas generativas recurrentes basadas en redes neuronales (RNN-GAN) combinan las capacidades de modelado temporal de RNN con los principios de entrenamiento adversario de los GAN. Las funciones de pérdida utilizadas en los Gans RNN generalmente están diseñadas para optimizar los objetivos tanto del generador como del discriminador dentro de este marco, y cuando se combinan con el ADAM Optimizer, su comportamiento y convergencia están influenciados por sus propiedades distintivas de la tasa de aprendizaje adaptativo.

Funciones de pérdida típica en RNN-Gans

RNN-Gans usan variaciones de funciones de pérdida basadas en la formulación de GaN original. Las funciones de pérdida más comunes involucradas son:

- Pérdida binaria de entropía cruzada (pérdida de BCE): esta es una opción común para el discriminador y el generador donde el discriminador intenta distinguir secuencias reales de las falsas y el generador intenta engañar al discriminador mediante la producción de secuencias realistas. La pérdida de BCE mide la distancia entre las probabilidades predichas y las etiquetas de la verdad del suelo (real = 1, falso = 0).

- Pérdida adversaria (pérdida de Minax): la pérdida original de GaN tiene como objetivo resolver un juego Minimax entre el generador $$ g $$ y el discriminador $$ d $$. El discriminador maximiza la probabilidad de clasificar correctamente las muestras reales y falsas, mientras que el generador minimiza la probabilidad de que el discriminador clasifique correctamente sus falsificaciones:
$$
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (g (z)))]]
$$
Aquí, $$ x $$ es una secuencia real y $$ z $$ es una entrada de ruido para el generador. Esta pérdida se aplica en cada paso de tiempo o durante la salida de secuencia completa según la implementación.

- Pérdida de mínimos cuadrados (LSGAN): para estabilizar el entrenamiento, la pérdida de mínimos cuadrados reemplaza la pérdida de BCE. Penaliza muestras en función de su distancia desde el límite de decisión, alentando las salidas más cerca de los datos reales:
Para el discriminador:
$$
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [d (g (z))^2]
$$
Para el generador:
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
$$
Esta pérdida a menudo se prefiere en los GAN basados ​​en secuencias, incluidos los Gans RNN para evitar gradientes de desaparición.

- Pérdida de Wasserstein (WGAN): algunos modelos RNN-Gan usan la pérdida de Wasserstein para mejorar la estabilidad e interpretabilidad del entrenamiento. Esta pérdida utiliza la distancia de la Tierra como el criterio con un crítico (en lugar de un discriminador) que califica las secuencias en lugar de clasificarlas:
$$
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (g (z))]]
$$
Donde $$ \ Mathcal {d} $$ es el conjunto de funciones 1-lipschitz. La pérdida evita los gradientes saturantes, lo que puede ser crítico para los datos secuenciales.

-Pérdidas a nivel de secuencia: además de las pérdidas adversas, las pérdidas específicas de secuencia o específicas de la tarea, como la estimación de máxima verosimilitud (MLE) o las pérdidas de forzamiento del maestro, se pueden combinar con la pérdida adversaria para guiar el entrenamiento del generador de manera más efectiva en las secuencias.

Uso de Adam Optimizer en RNN-Gans

El Adam Optimizer es ampliamente adoptado en GANS, incluidos RNN-Gans, debido a su estimación de momento adaptativo que beneficia el entrenamiento adversario complejo. ADAM ajusta las tasas de aprendizaje individualmente para cada parámetro en función de las estimaciones de los primeros momentos (media) y segundo (varianza) de los gradientes durante el entrenamiento.

Los parámetros clave de Adam típicamente utilizados en el entrenamiento RNN-Gan son:

- Tasa de aprendizaje ($$ \ alpha $$): generalmente establece una pequeña (por ejemplo, 0.0001 a 0.001) para el entrenamiento de GaN estable.
- Tasa de desintegración exponencial para las estimaciones de primer momento ($$ \ beta_1 $$): comúnmente establecido alrededor de 0.5 a 0.9; más bajo que el estándar 0.9 para reducir las oscilaciones en el entrenamiento de GaN.
- Tasa de descomposición exponencial para las estimaciones del segundo momento ($$ \ beta_2 $$): generalmente se mantiene en 0.999.
- Epsilon ($$ \ epsilon $$): una pequeña constante como $$ 10^{- 8} $$ para mantener la estabilidad numérica.

El equilibrio de Momentum y las tasas de aprendizaje adaptativas de Adam ayuda a superar los problemas con las pérdidas adversas no estacionarias, especialmente en el modelado de secuencias con RNN donde los gradientes pueden ser inestables o escasos.

Ejemplo de configuración de práctica común

En configuraciones prácticas de RNN-Gan, uno vería algo como:

- Discriminador y generador optimizado por separado con pérdida de entropía transversal binaria o sus variantes.
- Usando el Optimizer Adam con $$ \ beta_1 = 0.5 $$, $$ \ beta_2 = 0.999 $$ y tasa de aprendizaje alrededor de $$ 10^{- 4} $$ para garantizar actualizaciones equilibradas.
- La capacitación implica actualizaciones alternativas entre discriminador y generador en función de sus respectivas pérdidas en cada paso de entrenamiento o mini lote.

Variaciones e investigaciones adicionales

La investigación sobre las funciones de pérdidas para Gans continúa evolucionando. Algunos estudios introducen funciones de pérdida parametrizadas o generalizadas (por ejemplo, basadas en la divergencia de RéNa NYI o las divergencias de Pearson) para mejorar la estabilidad y el rendimiento. Aplicarlos a RNN-Gans podría implicar modificar los objetivos de discriminadores y generadores en consecuencia.

Además, la autorregularización y las pérdidas compuestas que combinan la pérdida adversaria con la reconstrucción o las pérdidas de clasificación a veces se adoptan dependiendo de la tarea, como la generación de texto o la síntesis de series de tiempo.

Resumen

Las funciones típicas de la pérdida de RNN-Gan con Adam Optimizer utilizan pérdidas adversas inspiradas en el GaN original, incluida la entropía transversal binaria, las pérdidas de mínimos cuadrados o Wasserstein adaptadas para datos secuenciales. La configuración de los parámetros de Adam se ajustan específicamente para la estabilidad GaN. Las combinaciones con pérdidas específicas de secuencia también son comunes a un mejor entrenamiento del generador de guía en patrones temporales. Este conjunto facilita el entrenamiento de modelos de RNN adversos que generan o modelan secuencias de manera efectiva.

Las referencias para esta información derivan de la literatura fundamental GaN, aplicaciones RNN-Gan y patrones de uso de optimizador.