Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ADAM Optimizer中RNN-GAN中使用的典型损失功能是什么


ADAM Optimizer中RNN-GAN中使用的典型损失功能是什么


基于复发性神经网络的生成对抗网络(RNN-GAN)将RNN的时间建模能力与甘恩斯的对抗训练原理相结合。 RNN-GAN中使用的损失功能通常是为了优化该框架内的生成器和鉴别器的目标,并且与Adam Optimizer配对时,其行为和收敛性受其独特的自适应学习率属性的影响。

RNN-GANS中的典型损失功能

RNN-GAN使用基于原始GAN公式的损失函数的变化。最常见的损失功能是:

- 二进制跨循环损失(BCE损失):这是歧视者和发电机的共同选择,其中鉴别器试图将真实序列与假序列区分开,而发电机则试图通过产生现实序列来欺骗歧视器。 BCE损失衡量预测概率与地面真相标签之间的距离(真实= 1,伪造= 0)。

- 对抗性损失(Minimax损失):原始的GAN损失旨在解决发电机$$ g $$和歧视$$ D $$之间的最小游戏。鉴别器最大化正确分类真实和假样品的可能性,而发电机则最大程度地减少了歧视器的概率正确分类:
$$
\ min_g \ max_d v(d,g)= \ mathbb {e} _ {x \ sim p_ {data>>} [\ log d(x)] + \ mathbb {e} _ {z \ sim p_z}
$$
在这里,$$ x $$是一个真实的序列,$$ z $$是发电机的噪声输入。此损失根据实现的不同,在每个时间段或完整序列输出上应用。

- 最小二乘损失(LSGAN):为了稳定训练,最小二乘损失取代了公元前的损失。它会根据样本与决策边界的距离惩罚样本,鼓励产出更接近实际数据:
对于歧视者:
$$
\ frac {1} {2} \ Mathbb {
$$
对于发电机:
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d(g(z)) - 1) - 1)^2]
$$
这种损失通常是基于RNN-GAN在内的序列gan中首选,以避免消失的梯度。

- Wasserstein损失(WGAN):一些RNN-GAN模型使用Wasserstein损失来提高训练稳定性和解释性。这种损失将地球推动者的距离作为评论家(而不是歧视者)的标准,该标准(而不是歧视者)得分序列而不是对它们进行分类:
$$
\ min_g \ max_ {d \ in \ mathcal {d>} \ Mathbb {e} _ {x \ sim p_ {data> [d(x)] - \ mathbb {e} _ {z {z {z \ sim p_z> [d(g(z))
$$
其中$$ \ MATHCAL {D} $$是1-Lipschitz函数的集合。损失避免了饱和梯度,这对于顺序数据至关重要。

- 序列级别的损失:除了对抗性损失,序列特异性或特定于任务的损失(例如最大似然估计(MLE)或教师强迫损失)外,还可能与对抗性损失相结合,以更有效地指导生成器训练。

###在RNN-GANS中使用Adam Optimizer

Adam Optimizer在包括RNN-GAN在内的gan中广泛采用,因为它的适应性力矩估计有益于复杂的对抗性训练。亚当根据训练过程中梯度的第一(平均)和第二(差异)矩的估计值分别调整每个参数的学习率。

Adam通常在RNN-GAN培训中使用的主要参数是:

- 学习率($$ \ alpha $$):通常将小(例如0.0001至0.001)设置为稳定的GAN培训。
- 第一时刻估算的指数衰减率($$ \ beta_1 $$):通常设置为0.5至0.9;低于标准0.9,以减少GAN训练中的振荡。
- 第二钟估计值($$ \ beta_2 $$)的指数衰减率:通常保持在0.999。
-epsilon($$ \ epsilon $$):一个小常数,例如$$ 10^{ - 8} $$,以维持数值稳定性。

亚当的势头和自适应学习率的平衡有助于克服非平稳的对抗损失的问题,尤其是在使用RNN的序列建模中,梯度可能是不稳定或稀疏的。

###普通练习设置示例

在实用的RNN-GAN设置中,通常会看到类似的东西:

- 鉴别器和发电机用二进制跨透镜损失或其变体分别优化。
- 使用$$ \ beta_1 = 0.5 $$,$$ \ beta_2 = 0.999 $$和学习率$$ 10^{ - 4} $$,以确保平衡更新。
- 培训涉及根据每个培训步骤或迷你批次在各自的损失中进行歧视器和发电机之间的更新。

###进一步的变化和研究

GAN的损失功能的研究继续发展。一些研究介绍了参数化或广义损失函数(例如,基于Râ©nyi Divergence或Pearson Diverences)来增强稳定性和性能。将这些应用于RNN-GAN可能涉及对歧视者和生成器的目标进行相应的修改。

另外,有时会根据任务(例如文本生成或时间序列的综合)采用自我调节和综合损失与重建或分类损失结合或分类损失。

### 概括

典型的RNN-GAN损失功能具有ADAM优化器的使用,使用了受原始GAN启发的对抗损失,包括二进制跨透镜,最小二乘或Wasserstein损失,适用于顺序数据。亚当的参数设置专门针对GAN稳定性进行调整。与序列特异性损失的组合也很常见,可以更好地指导发生时间模式的发生器训练。这种整体有助于有效地生成或建模序列的对抗性RNN模型的培训。

此信息的参考来自GAN基础文献,RNN-GAN应用程序和优化器使用模式。