การตัดน้ำหนักเป็นเทคนิคที่นำมาใช้ใน Wasserstein Gans (wgans) เพื่อบังคับใช้ข้อ จำกัด ต่อเนื่องของ Lipschitz ที่ต้องการโดยตัวชี้วัดระยะทาง Wasserstein ในขณะที่มันมีความเรียบง่ายในการคำนวณและความสำเร็จเริ่มต้นการตัดน้ำหนักใน WGANs แนะนำปัญหาที่น่าสังเกตหลายประการที่มีผลต่อความเสถียรในการฝึกอบรมความสามารถของโมเดลและประสิทธิภาพโดยรวม
หนึ่งในปัญหาหลักเกี่ยวกับการตัดน้ำหนักคือมันทำหน้าที่เป็นข้อ จำกัด อย่างหนักเกี่ยวกับน้ำหนักของโมเดลโดยการตัดทอนพวกเขาภายในช่วงที่คงที่ การดำเนินการที่เข้มงวดนี้อคตินักวิจารณ์ (discriminator ใน gans แบบดั้งเดิม) ไปสู่การเรียนรู้ฟังก์ชั่นที่ง่ายมากเกินไปจำกัดความสามารถในการจำลองการแจกแจงข้อมูลที่ซับซ้อนได้อย่างมีประสิทธิภาพ กองกำลังการตัดน้ำหนักให้อยู่ในกล่องเล็ก ๆ ซึ่งมักจะนำไปสู่นักวิจารณ์ที่ไม่สามารถจับช่วงเวลาที่สูงขึ้นและรายละเอียดของข้อมูลได้ดีขึ้น ข้อ จำกัด นี้สามารถทำให้ฟังก์ชั่นของนักวิจารณ์กลายเป็นเรื่องง่ายเกินไปที่จะประเมินระยะห่างของ Wasserstein อย่างแม่นยำซึ่งเป็นสิ่งจำเป็นสำหรับการฝึกอบรม GAN ที่มั่นคง
อีกประเด็นที่เกี่ยวข้องคือความไม่แน่นอนของการฝึกอบรมที่เกิดจากการตัดน้ำหนัก ช่วงการตัดจะต้องได้รับการปรับแต่งอย่างระมัดระวัง: หากมีการตั้งค่าขนาดใหญ่เกินไปข้อ จำกัด ของ Lipschitz จะถูกบังคับใช้ไม่เพียงพอซึ่งอาจนำไปสู่การฝึกอบรมที่ไม่แน่นอนและการล่มสลายของโหมด; หากตั้งค่าเล็กเกินไปการไล่ระดับสีอาจหายไปหรือเล็กเกินไปสำหรับการอัปเดตที่มีประสิทธิภาพ การไล่ระดับสีที่หายไปมักเกิดขึ้นเมื่อน้ำหนักของนักวิจารณ์ถูกตัดให้มีค่าต่ำมากเกินไปโดยเฉพาะอย่างยิ่งในสถาปัตยกรรมที่มีเครือข่ายลึกไม่มีการทำให้เป็นมาตรฐานแบบชุดหรือส่วนประกอบที่เกิดขึ้นอีก ปัญหาที่หายไปจากการไล่ระดับสีนี้เกิดขึ้นเนื่องจากน้ำหนัก discriminator ถูก จำกัด ให้อยู่ในช่วงแคบลดความสามารถของนักวิจารณ์ในการให้ข้อเสนอแนะที่มีความหมายต่อเครื่องกำเนิดไฟฟ้าในระหว่างการฝึกอบรม
การตัดน้ำหนักยังนำไปสู่การกระจายน้ำหนักทางพยาธิวิทยา เชิงประจักษ์น้ำหนักนักวิจารณ์หลายคนมีแนวโน้มที่จะสะสมที่ขอบเขตของช่วงการตัดซึ่ง จำกัด การแสดงออกและความหลากหลายของน้ำหนักที่เรียนรู้ เอฟเฟกต์ความอิ่มตัวนี้เพิ่มประสิทธิภาพการเพิ่มประสิทธิภาพเนื่องจากการอัพเดทการไล่ระดับสีดันน้ำหนักไปยังขีด จำกัด การตัดซ้ำ ๆ ทำให้เกิดการสำรวจพารามิเตอร์ที่ไม่มีประสิทธิภาพและการบรรจบกันช้าลง นอกจากนี้การตัดน้ำหนักบิดเบือนภูมิทัศน์การเพิ่มประสิทธิภาพซึ่งหมายถึงการไล่ระดับสีและพื้นผิวการสูญเสียของนักวิจารณ์โดยรวมนั้นราบรื่นน้อยลงและยากที่จะนำทางด้วยวิธีการไล่ระดับสี
เนื่องจากปัญหาเหล่านี้การตัดน้ำหนักอาจทำให้ยากต่อการฝึกฝนสถาปัตยกรรมนักวิจารณ์ที่ลึกมากอย่างน่าเชื่อถือ ข้อ จำกัด ที่ยากที่กำหนดโดยการตัดไม่ได้ปรับขนาดได้ดีไปจนถึงสถาปัตยกรรมเครือข่ายที่มีขนาดใหญ่และซับซ้อนมากขึ้น เป็นที่สังเกตว่าแม้จะมีเทคนิคทั่วไปเช่นการทำให้เป็นมาตรฐานในนักวิจารณ์นักวิจารณ์ WGAN ลึกมักจะดิ้นรนเพื่อมาบรรจบกันเมื่อใช้การตัดน้ำหนัก ข้อ จำกัด เหล่านี้ลดความยืดหยุ่นและความสามารถของโมเดลเมื่อสร้างแบบจำลองการแจกแจงข้อมูลในโลกแห่งความเป็นจริงที่ซับซ้อนซึ่งมักจะส่งผลให้คุณภาพตัวอย่างไม่ดีหรือการฝึกอบรมที่ล้มเหลว
เอกสาร WGAN ดั้งเดิมและงานที่ตามมาได้รับการยอมรับว่าการตัดน้ำหนักสามารถนำไปสู่พฤติกรรมที่ไม่พึงประสงค์ในการฝึกอบรมโดยเฉพาะอย่างยิ่งสำหรับชุดข้อมูลมิติสูงหรือซับซ้อน วิธีการดังกล่าวอาจทำให้นักวิจารณ์ยุบฟังก์ชั่นที่ง่ายขึ้นลดคุณภาพและความหลากหลายของตัวอย่างที่สร้างขึ้น การวิจัยบางอย่างชี้ให้เห็นว่าการตัดอคติต่อน้ำหนักนักวิจารณ์ต่อการทำงานที่มีการไล่ระดับสีคงที่หรือลดระดับการไล่ระดับสีอย่างมีนัยสำคัญซึ่งขัดแย้งกับข้อ จำกัด ของ Lipschitz ในอุดมคติของการมีบรรทัดฐานการไล่ระดับสีใกล้เคียงกับเกือบทุกที่
เพื่อแก้ไขข้อเสียเหล่านี้มีการเสนอทางเลือกในการตัดน้ำหนักโดยเฉพาะอย่างยิ่งวิธีการไล่ระดับสี (WGAN-GP) ที่โดดเด่นที่สุด ซึ่งแตกต่างจากการตัดอย่างหนักการลงโทษการไล่ระดับสีกำหนดข้อ จำกัด ที่นุ่มนวลโดยการลงโทษการเบี่ยงเบนของบรรทัดฐานการไล่ระดับสีจากหนึ่งซึ่งส่งเสริมให้นักวิจารณ์ที่ราบรื่นและสมจริงยิ่งขึ้น การลงโทษนี้ถูกเพิ่มเป็นคำพิเศษในฟังก์ชั่นการสูญเสียหลีกเลี่ยงการกักขังน้ำหนักอย่างเข้มงวดและช่วยให้การเรียนรู้นักวิจารณ์ที่มีเสถียรภาพและแสดงออกมากขึ้น วิธีการตามการลงโทษแบบไล่ระดับสีช่วยปรับปรุงความเสถียรการฝึกอบรมคุณภาพตัวอย่างและความเร็วการบรรจบกันอย่างมีนัยสำคัญเมื่อเทียบกับการตัดน้ำหนัก
โดยสรุปปัญหาหลักเกี่ยวกับการตัดน้ำหนักใน WGANs ได้แก่ :
- ข้อ จำกัด ที่ยากที่จำกัดความซับซ้อนของนักวิจารณ์ซึ่งนำไปสู่การเลือกปฏิบัติที่ง่ายเกินไป
- ความไม่แน่นอนของการฝึกอบรมจากการเลือกช่วงการตัดที่ไม่เหมาะสมทำให้เกิดการหายไปหรือระเบิดการไล่ระดับสี
- การกระจายน้ำหนักทางพยาธิวิทยาที่มีน้ำหนักจำนวนมากอิ่มตัวที่ขอบเขตการตัด
- การเพิ่มประสิทธิภาพที่ไม่มีประสิทธิภาพเนื่องจากภูมิทัศน์การสูญเสียที่บิดเบี้ยวและข้อมูลการไล่ระดับสี
- ปัญหาความยืดหยุ่นและการบรรจบกันที่ไม่ดีกับสถาปัตยกรรมการวิจารณ์อย่างลึกซึ้ง
- คุณภาพที่ต่ำกว่าของตัวอย่างที่สร้างขึ้นเมื่อสร้างแบบจำลองข้อมูลที่ซับซ้อน
- การแสดงออกที่ จำกัด โดยรวมและความล้มเหลวในการรักษาความต่อเนื่องของ Lipschitz ที่เหมาะสมในลักษณะที่ยืดหยุ่น