무게 클리핑은 Wasserstein gans (WASSANS)에서 원래 Wasserstein 거리 메트릭에 필요한 Lipschitz 연속성 제약 조건을 시행하는 기술입니다. 계산 단순성과 일부 초기 성공이 있지만 WGAN의 중량 클리핑은 교육 안정성, 모델 용량 및 전반적인 성능에 영향을 미치는 몇 가지 주목할만한 문제를 소개합니다.
중량 클리핑의 주요 문제 중 하나는 고정 범위 내에서 자르고 모델의 가중치에 대한 단단한 제약으로 작용한다는 것입니다. 이 제한적인 운영은 비평가 (전통적인 GANS의 차별자)를 지나치게 간단한 기능을 학습하는 데있어서 복잡한 데이터 분포를 효과적으로 모델링 할 수있는 능력을 제한합니다. 클리핑은 가중치가 작은 상자에 머무르도록 강요하며, 이는 종종 비평가가 더 높은 순간 모멘트와 데이터의 세부 사항을 포착하지 못하게합니다. 이 제약은 비평가의 기능이 너무 단순 해져서 Wasserstein 거리를 정확하게 추정하여 안정적인 GAN 훈련에 필수적입니다.
또 다른 관련 문제는 중량 클리핑으로 인한 훈련 불안정성입니다. 클리핑 범위를 조심스럽게 조정해야합니다. 너무 커지면 Lipschitz 제약 조건이 부적절하게 시행되어 불안정한 교육 및 모드 붕괴로 이어집니다. 너무 작게 설정되면 효과적인 업데이트를 위해 기울기가 사라지거나 너무 작아지면 모델 학습이 손상 될 수 있습니다. 사라지는 그라디언트는 일반적으로 비평가 가중치가 과도하게 낮은 값, 특히 딥 네트워크가있는 아키텍처, 배치 정규화 또는 반복 구성 요소에서 절단 될 때 발생합니다. 이 그라데이션 사라지는 문제는 식별기 가중치가 좁은 범위로 제한되어 훈련 중에 발전기에 의미있는 피드백을 제공하는 비평가의 능력을 줄이기 때문에 발생합니다.
체중 클리핑은 또한 병리학 적 중량 분포로 이어진다. 경험적으로, 많은 비평가 무게는 클리핑 범위의 경계에서 축적되는 경향이 있으며, 이는 학습 된 가중치의 표현성과 다양성을 제한합니다. 그라디언트 업데이트는 클리핑 제한으로 가중치를 반복적으로 푸시하여 비효율적 인 매개 변수 탐색과 수렴 느린 수렴을 유발하기 때문에이 포화 효과는 최적화를 방해합니다. 또한, 무게 클리핑은 최적화 환경을 왜곡시켜 그라디언트와 전체 비평가 손실 표면이 그라디언트 기반 방법으로 탐색하기가 덜 매끄럽고 점점 어려워집니다.
이러한 문제로 인해 무게 클리핑은 매우 깊은 비평가 아키텍처를 안정적으로 훈련하기가 어려울 수 있습니다. 클리핑으로 인해 부과 된 단단한 제약은 더 크고 더 복잡한 네트워크 아키텍처로 잘 확장되지 않습니다. 비평가 내에서 배치 정규화와 같은 일반적인 기술을 사용하더라도 Deep WGAN 비평가들은 종종 체중 클리핑이 적용될 때 수렴하기 위해 노력하고 있습니다. 이러한 제한은 복잡한 실제 데이터 분포를 모델링 할 때 모델의 유연성과 용량을 줄이고 종종 샘플 품질이 좋지 않거나 교육이 실패합니다.
원래의 WGAN 논문과 그 이후의 작품은 무게 클리핑이 특히 고차원 또는 복잡한 데이터 세트에서 훈련에서 바람직하지 않은 행동으로 이어질 수 있음을 인정했습니다. 이 방법은 비평가가 단순한 기능으로 붕괴되어 생성 된 샘플의 품질과 다양성을 줄일 수 있습니다. 일부 연구는 중량 클리핑이 일정한 구배 또는 실질적으로 감소 된 구배 표준으로 기능에 대한 비평가를 편향시켜 거의 모든 곳에서 그라디언트 규범을 갖는 이상적인 Lipschitz 제약과 모순된다고 지적합니다.
이러한 단점을 해결하기 위해 무게 클리핑에 대한 대안이 제안되었으며, 특히 WGAN-GP (Gradient Penalty) 방법이 제안되었습니다. 하드 클리핑과는 달리, 그라디언트 페널티는 그라디언트 규범의 편차를 하나에서 벌칙함으로써 부드러운 제약을 부과하며, 이는 더 부드럽고 현실적인 비평가 기능을 장려합니다. 이 페널티는 손실 기능에서 추가 용어로 추가되어 가중치의 엄격한 감금을 피하고보다 안정적이고 표현적인 비평가 학습을 허용합니다. 그라디언트 페널티 기반 접근 방식은 무게 클리핑에 비해 훈련 안정성, 샘플 품질 및 수렴 속도를 크게 향상시킵니다.
요약하면 WGAN의 중량 클리핑과 관련된 주요 문제는 다음과 같습니다.
- 비평가의 복잡성을 제한하는 어려운 제약으로 지나치게 간단한 차별자로 이어집니다.
- 부적절한 클리핑 범위 선택으로부터의 훈련 불안정성, 사라지거나 폭발하는 그라디언트를 유발합니다.
- 클리핑 경계에서 포화가 많은 병리학 적 중량 분포.
- 왜곡 된 손실 조경 및 그라디언트 정보로 인한 비효율적 인 최적화.
- 심층 비평가 아키텍처의 확장 성 및 수렴 문제.
- 복잡한 데이터를 모델링 할 때 생성 된 샘플의 품질이 낮습니다.
- 전반적인 제한된 표현성과 적절한 Lipschitz 연속성을 유연한 방식으로 유지하지 못한다.