Cắt trọng lượng là một kỹ thuật ban đầu được giới thiệu trong các Gans (WGANS) Wasserstein (WGANS) để thực thi các ràng buộc liên tục của Lipschitz theo yêu cầu của số liệu khoảng cách Wasserstein. Mặc dù nó có sự đơn giản tính toán và một số thành công ban đầu, việc cắt trọng lượng trong WGANS giới thiệu một số vấn đề đáng chú ý ảnh hưởng đến sự ổn định đào tạo, năng lực mô hình và hiệu suất tổng thể.
Một trong những vấn đề chính với việc cắt trọng lượng là nó hoạt động như một ràng buộc khó khăn đối với trọng số của mô hình bằng cách cắt ngắn chúng trong một phạm vi cố định. Hoạt động hạn chế này làm sai lệch các nhà phê bình (phân biệt đối xử trong Gans truyền thống) đối với việc học các chức năng quá đơn giản, hạn chế khả năng của nó để mô hình hóa các phân phối dữ liệu phức tạp một cách hiệu quả. Việc cắt trọng lượng trọng lượng để ở trong một hộp nhỏ, điều này thường dẫn đến các nhà phê bình không nắm bắt được những khoảnh khắc bậc cao và chi tiết tốt hơn của dữ liệu. Hạn chế này có thể khiến chức năng của nhà phê bình trở nên quá đơn giản để ước tính chính xác khoảng cách wasserstein, điều này rất cần thiết cho việc đào tạo GAN ổn định.
Một vấn đề liên quan khác là sự bất ổn đào tạo gây ra bởi việc cắt trọng lượng. Phạm vi cắt cần phải được điều chỉnh cẩn thận: nếu nó được đặt quá lớn, ràng buộc Lipschitz được thực thi không đầy đủ, có khả năng dẫn đến đào tạo không ổn định và sụp đổ chế độ; Nếu đặt quá nhỏ, độ dốc có thể biến mất hoặc trở nên quá nhỏ để cập nhật hiệu quả, làm suy yếu việc học mô hình. Độ dốc biến mất thường xảy ra khi các trọng số phê bình được cắt đến các giá trị thấp quá mức, đặc biệt là trong các kiến trúc có mạng sâu, không bình thường hóa hàng loạt hoặc các thành phần tái phát. Vấn đề biến mất độ dốc này phát sinh vì trọng số phân biệt đối xử bị hạn chế trong phạm vi hẹp, làm giảm khả năng của nhà phê bình để cung cấp phản hồi có ý nghĩa cho trình tạo trong quá trình đào tạo.
Cắt trọng lượng cũng dẫn đến phân phối trọng lượng bệnh lý. Về mặt thực nghiệm, nhiều trọng lượng phê bình có xu hướng tích lũy ở ranh giới của phạm vi cắt, điều này hạn chế tính biểu cảm và sự đa dạng của các trọng lượng đã học. Hiệu ứng bão hòa này cản trở tối ưu hóa vì gradient cập nhật trọng lượng đẩy vào các giới hạn cắt lặp đi lặp lại, gây ra thăm dò tham số không hiệu quả và sự hội tụ chậm hơn. Ngoài ra, việc cắt trọng lượng làm biến dạng cảnh quan tối ưu hóa, có nghĩa là độ dốc và bề mặt mất phê bình tổng thể trở nên ít mịn hơn và khó điều hướng hơn với các phương pháp dựa trên độ dốc.
Do những vấn đề này, việc cắt trọng lượng có thể gây khó khăn cho việc đào tạo kiến trúc phê bình rất sâu một cách đáng tin cậy. Các ràng buộc cứng áp đặt bằng cách cắt không mở rộng quy mô tốt với các kiến trúc mạng lớn hơn và phức tạp hơn. Người ta quan sát thấy rằng ngay cả với các kỹ thuật phổ biến như bình thường hóa hàng loạt trong nhà phê bình, các nhà phê bình WGAN sâu thường đấu tranh để hội tụ khi áp dụng cân nặng. Những hạn chế này làm giảm tính linh hoạt và năng lực của mô hình khi mô hình hóa phân phối dữ liệu trong thế giới thực phức tạp, thường dẫn đến chất lượng mẫu kém hoặc đào tạo thất bại.
Các giấy tờ WGAN ban đầu và các công trình tiếp theo đã thừa nhận rằng việc cắt trọng lượng có thể dẫn đến hành vi không mong muốn trong đào tạo, đặc biệt là đối với các bộ dữ liệu chiều cao hoặc phức tạp. Phương pháp này có thể khiến nhà phê bình sụp đổ thành các chức năng đơn giản hơn, giảm chất lượng và sự đa dạng của các mẫu được tạo ra. Một số nghiên cứu chỉ ra rằng việc cắt trọng lượng thiên vị các nhà phê bình đối với các chức năng với độ dốc không đổi hoặc giảm đáng kể chỉ tiêu độ dốc, điều này mâu thuẫn với sự ràng buộc của Lipschitz lý tưởng khi có một tiêu chuẩn độ dốc gần với một tiêu chuẩn gần như ở khắp mọi nơi.
Để giải quyết những nhược điểm này, các lựa chọn thay thế cho việc cắt trọng lượng đã được đề xuất, đáng chú ý nhất là phương pháp hình phạt gradient (WGAN-GP). Không giống như cắt cứng, hình phạt gradient áp đặt một ràng buộc mềm bằng cách xử phạt sự sai lệch của chỉ tiêu độ dốc từ một, khuyến khích các chức năng phê bình mượt mà và thực tế hơn. Hình phạt này được thêm vào như một thuật ngữ bổ sung trong chức năng mất, tránh bị giam cầm cứng nhắc và cho phép học tập phê bình ổn định và biểu cảm hơn. Phương pháp tiếp cận dựa trên hình phạt gradient cải thiện đáng kể sự ổn định đào tạo, chất lượng mẫu và tốc độ hội tụ so với cắt trọng lượng.
Tóm lại, các vấn đề chính với việc cắt trọng lượng trong WGans bao gồm:
- Một hạn chế khó khăn giới hạn sự phức tạp của nhà phê bình, dẫn đến những người phân biệt đối xử quá đơn giản.
- Sự bất ổn đào tạo từ lựa chọn phạm vi cắt không đúng, gây ra độ biến mất hoặc phát nổ.
- Phân phối trọng lượng bệnh lý với nhiều trọng lượng bão hòa khi cắt ranh giới.
- Tối ưu hóa không hiệu quả do cảnh quan mất mát bị bóp méo và thông tin độ dốc.
- Khả năng mở rộng kém và các vấn đề hội tụ với kiến trúc phê bình sâu sắc.
- Chất lượng thấp hơn của các mẫu được tạo khi mô hình hóa dữ liệu phức tạp.
- Tính tổng thể biểu cảm và thất bại trong việc duy trì tính liên tục của Lipschitz một cách linh hoạt.