Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon RNN-Gans에서 Adam Optimizer와 함께 사용되는 일반적인 손실 기능은 무엇입니까?


RNN-Gans에서 Adam Optimizer와 함께 사용되는 일반적인 손실 기능은 무엇입니까?


RNN-GANS (Reburrent Neural Network-Based Aregative Adversarial Networks)는 RNN의 시간적 모델링 기능을 GANS의 적대적 훈련 원리와 결합합니다. RNN-GAN에 사용 된 손실 기능은 일반적 으로이 프레임 워크 내에서 발전기와 판별 자의 목표를 최적화하도록 설계되며 Adam Optimizer와 쌍을 이룰 때 그들의 행동과 수렴은 독특한 적응 학습 속도 특성에 의해 영향을받습니다.

rnn-gans의 일반적인 손실 함수

RNN-gans는 원래 GAN 제형에 기초하여 손실 함수의 변형을 사용합니다. 관련된 가장 일반적인 손실 기능은 다음과 같습니다.

- 바이너리- 엔트로피 손실 (BCE 손실) : 판별자가 가짜 시퀀스와 실제와 구별하려고 시도하고 생성기는 사실적인 시퀀스를 생성함으로써 판별자를 속이려고 시도하는 판별 자 및 발전기에게 공통적 인 선택입니다. BCE 손실은 예측 된 확률과 지상 진실 레이블 사이의 거리를 측정합니다 (Real = 1, fake = 0).

- 적대적 손실 (Minimax 손실) : 원래 GAN 손실은 Generator $$ g $$와 판별 자 $$ d $$ 사이의 Minimax 게임을 해결하는 것을 목표로합니다. 판별자는 실제 샘플과 가짜 샘플을 올바르게 분류 할 확률을 최대화하는 반면, 발전기는 가짜를 올바르게 분류하는 판별 자의 확률을 최소화합니다.
$$
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (z))]]
$$
여기에서 $$ x $$는 실제 순서이며 $$ z $$는 생성기에 대한 소음 입력입니다. 이 손실은 구현에 따라 각 타임 스텝 또는 전체 시퀀스 출력에 적용됩니다.

- 최소 제곱 손실 (LSGAN) : 훈련을 안정화시키기 위해 최소 제곱 손실은 BCE 손실을 대체합니다. 의사 결정 경계와의 거리에 따라 샘플을 처벌하여 실제 데이터에 더 가깝게 출력을 장려합니다.
판별 자 :
$$
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [d (z))^2]
$$
발전기의 경우 :
$$
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z)) -1)^2]
$$
이 손실은 종종 사라지는 구배를 피하기 위해 RNN-GAN을 포함한 순서 기반 GAN에서 선호됩니다.

- WASSERSTEIN 손실 (WGAN) : 일부 RNN-GAN 모델은 훈련 안정성 및 해석 성을 향상시키기 위해 Wasserstein 손실을 사용합니다. 이 손실은 지구 발동기의 거리는 시퀀스를 분류하기보다는 시퀀스를 점수하는 비평가 (차별자 대신)와의 기준으로 사용합니다.
$$
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z} [d (g (z))]
$$
여기서 $$ \ mathcal {d} $$는 1-lipschitz 함수 세트입니다. 손실은 포화 구배를 피하며 순차적 데이터에 중요 할 수 있습니다.

-시퀀스 수준 손실 : 적대적 손실 외에도, 최대 가능성 추정 (MLE) 또는 교사 강제 손실과 같은 서열 별 또는 작업 별 손실은 시퀀스에 대한 발전기 훈련을보다 효과적으로 안내하기 위해 대적 손실과 결합 될 수 있습니다.

RNN-GANS에서 Adam Optimizer 사용

Adam Optimizer는 복잡한 적대 훈련에 도움이되는 적응 모멘트 추정으로 인해 RNN-GANS를 포함한 GANS에서 널리 채택됩니다. Adam은 훈련 중 그라디언트의 첫 번째 (평균) 및 두 번째 (분산) 모멘트의 추정치를 기반으로 각 매개 변수에 대한 학습 속도를 개별적으로 조정합니다.

RNN-GAN 교육에 일반적으로 사용되는 Adam의 주요 매개 변수는 다음과 같습니다.

- 학습 속도 ($$ \ alpha $$) : 일반적으로 안정적인 GAN 훈련을 위해 작게 설정합니다 (예 : 0.0001 ~ 0.001).
- 첫 번째 모멘트 추정치의 지수 붕괴율 ($$ \ beta_1 $$) : 일반적으로 약 0.5 ~ 0.9; GAN 훈련에서 진동을 줄이기 위해 표준 0.9보다 낮습니다.
- 두 번째 순간 추정치의 지수 붕괴율 ($$ \ beta_2 $$) : 일반적으로 0.999로 유지됩니다.
-Epsilon ($$ \ epsilon $$) : 수치 안정성을 유지하기 위해 $$ 10^{-8} $$와 같은 작은 상수.

Adam의 모멘텀 및 적응 학습 률의 균형은 비 정지 적 대적 손실의 문제를 극복하는 데 도움이됩니다. 특히 그라디언트가 불안정하거나 드문 일 수있는 RNN과의 순서 모델링에서.

일반적인 연습 설정 예제

실제 RNN-GAN 설정에서 일반적으로 다음과 같은 것을 볼 수 있습니다.

- 식별기 및 발전기는 이진 교차 엔트로피 손실 또는 변이체와 별도로 최적화되었습니다.
- $$ \ beta_1 = 0.5 $$, $$ \ beta_2 = 0.999 $$와 함께 Adam Optimizer를 사용하고 균형 잡힌 업데이트를 보장하기 위해 $$ 10^{-4} $$ 정도입니다.
- 훈련에는 각 교육 단계 또는 미니 배치에서 각각의 손실에 따라 판별 자와 발전기 간의 번갈아 가면됩니다.

추가 변형 및 연구

Gans의 손실 기능에 대한 연구는 계속 발전하고 있습니다. 일부 연구는 안정성과 성능을 향상시키기 위해 매개 변수 또는 일반화 된 손실 기능 (예 : r 8 © NYI Divergence 또는 Pearson Divergences)을 도입합니다. 이를 RNN-GANS에 적용하려면 판별 자 및 발전기 목표를 수정할 수 있습니다.

또한, 대적 손실과 재건 또는 분류 손실을 결합한 자체 규제 및 복합 손실은 텍스트 생성 또는 시계열 합성과 같은 작업에 따라 채택됩니다.

요약

Adam Optimizer와 함께 전형적인 RNN-GAN 손실 기능은 이진 크로스 엔트로피, 최소 제곱 또는 순차적 데이터에 적합한 Wasserstein 손실을 포함하여 원래 GAN에서 영감을 얻은 적대적 손실을 사용합니다. Adam의 매개 변수 설정은 GAN 안정성을 위해 특별히 조정됩니다. 서열-특이 적 손실과의 조합은 또한 시간 패턴에 대한 더 나은 가이드 발전기 훈련에 공통적이다. 이 앙상블은 시퀀스를 효과적으로 생성하거나 모델링하는 적대적 RNN 모델의 훈련을 용이하게합니다.

이 정보에 대한 참조는 GAN 기초 문헌, RNN-GAN 응용 프로그램 및 Optimizer 사용 패턴에서 파생됩니다.