Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ฟังก์ชั่นการสูญเสียทั่วไปที่ใช้ใน RNN-gans กับ Adam Optimizer คืออะไร


ฟังก์ชั่นการสูญเสียทั่วไปที่ใช้ใน RNN-gans กับ Adam Optimizer คืออะไร


เครือข่ายการสร้างเครือข่ายที่ใช้ระบบประสาทที่เกิดขึ้นอีกครั้ง (RNN-GANS) รวมความสามารถในการสร้างแบบจำลองชั่วคราวของ RNNs เข้ากับหลักการฝึกอบรมฝ่ายตรงข้ามของ GANS ฟังก์ชั่นการสูญเสียที่ใช้ใน RNN-GANS มักได้รับการออกแบบมาเพื่อเพิ่มประสิทธิภาพวัตถุประสงค์ของทั้งเครื่องกำเนิดไฟฟ้าและการเลือกปฏิบัติภายในกรอบนี้และเมื่อจับคู่กับ Adam Optimizer พฤติกรรมและการบรรจบกันของพวกเขาได้รับอิทธิพลจากคุณสมบัติการเรียนรู้แบบปรับตัวที่โดดเด่น

ฟังก์ชั่นการสูญเสียทั่วไปใน rnn-gans

RNN-gans ใช้การเปลี่ยนแปลงของฟังก์ชั่นการสูญเสียตามสูตร GAN ดั้งเดิม ฟังก์ชั่นการสูญเสียที่พบบ่อยที่สุดที่เกี่ยวข้องคือ:

- การสูญเสียข้ามแบบไบนารี (การสูญเสีย BCE): นี่เป็นตัวเลือกทั่วไปสำหรับตัวเลือกจำเพาะและเครื่องกำเนิดไฟฟ้าที่ผู้จำแนกพยายามแยกแยะความจริงจากลำดับปลอมและเครื่องกำเนิดไฟฟ้าพยายามที่จะหลอกผู้เลือกปฏิบัติโดยการสร้างลำดับที่สมจริง การสูญเสีย BCE วัดระยะห่างระหว่างความน่าจะเป็นที่คาดการณ์และฉลากความจริงภาคพื้นดิน (จริง = 1, ปลอม = 0)

- การสูญเสียของฝ่ายตรงข้าม (การสูญเสียขั้นต่ำ): การสูญเสีย GAN ดั้งเดิมมีวัตถุประสงค์เพื่อแก้ปัญหาเกมขั้นต่ำระหว่างเครื่องกำเนิดไฟฟ้า $$ g $$ และ discriminator $$ d $$ discriminator ช่วยเพิ่มความน่าจะเป็นของการจำแนกตัวอย่างจริงและปลอมอย่างถูกต้องในขณะที่เครื่องกำเนิดไฟฟ้าลดความน่าจะเป็นของ discriminator ให้น้อยที่สุดการจำแนกของปลอม:
-
\ min_g \ max_d v (d, g) = \ mathbb {e} _ {x \ sim p_ {data> [\ log d (x)] + \ mathbb {e} _ {z \ sim p_z} [\ log (1 - d (g (
-
ที่นี่ $$ x $$ เป็นลำดับจริงและ $$ z $$ เป็นสัญญาณรบกวนไปยังเครื่องกำเนิดไฟฟ้า การสูญเสียนี้จะถูกนำไปใช้ในแต่ละช่วงเวลาหรือมากกว่าเอาต์พุตลำดับเต็มขึ้นอยู่กับการใช้งาน

- การสูญเสียกำลังสองน้อยที่สุด (LSGAN): เพื่อรักษาเสถียรภาพการฝึกอบรมการสูญเสียกำลังสองน้อยที่สุดแทนที่การสูญเสีย BCE มันลงโทษตัวอย่างตามระยะทางจากขอบเขตการตัดสินใจกระตุ้นให้ส่งออกใกล้เคียงกับข้อมูลจริงมากขึ้น:
สำหรับ discriminator:
-
\ frac {1} {2} \ mathbb {e} _ {x \ sim p_ {data> [(d (x) -1)^2] + \ frac {1} {2} \ mathbb {e} _ {z \ sim p_z)
-
สำหรับเครื่องกำเนิด:
-
\ frac {1} {2} \ mathbb {e} _ {z \ sim p_z} [(d (g (z))-1)^2]
-
การสูญเสียนี้มักจะเป็นที่ต้องการใน Gans ตามลำดับรวมถึง RNN-Gans เพื่อหลีกเลี่ยงการไล่ระดับสีที่หายไป

- Wasserstein Loss (WGAN): บางรุ่น RNN-GAN ใช้การสูญเสีย Wasserstein เพื่อปรับปรุงความมั่นคงและความสามารถในการตีความ การสูญเสียครั้งนี้ใช้ระยะทางของผู้เสนอญัตติของโลกเป็นเกณฑ์ที่มีนักวิจารณ์ (แทนที่จะเป็นผู้จำแนก) ที่ให้คะแนนลำดับมากกว่าการจำแนกประเภท:
-
\ min_g \ max_ {d \ in \ mathcal {d> \ mathbb {e} _ {x \ sim p_ {data> [d (x)] - \ mathbb {e} _ {z \ sim p_z}
-
โดยที่ $$ \ Mathcal {d} $$ เป็นชุดของฟังก์ชั่น 1-Lipschitz การสูญเสียหลีกเลี่ยงการไล่ระดับสีที่อิ่มตัวซึ่งอาจเป็นสิ่งสำคัญสำหรับข้อมูลตามลำดับ

-การสูญเสียระดับลำดับ: นอกเหนือจากการสูญเสียที่เป็นปฏิปักษ์แล้วการสูญเสียเฉพาะลำดับหรือการสูญเสียเฉพาะงานเช่นการประมาณค่าความน่าจะเป็นสูงสุด (MLE) หรือการบังคับครูอาจรวมกับการสูญเสียที่เป็นแนวทางในการฝึกอบรมเครื่องกำเนิดไฟฟ้าได้อย่างมีประสิทธิภาพมากขึ้นในลำดับ

การใช้ Adam Optimizer ใน RNN-Gans

Adam Optimizer นั้นถูกนำมาใช้อย่างกว้างขวางใน Gans รวมถึง RNN-Gans เนื่องจากการประเมินช่วงเวลาที่ปรับตัวได้ซึ่งเป็นประโยชน์ต่อการฝึกอบรมที่ซับซ้อน อดัมปรับอัตราการเรียนรู้เป็นรายบุคคลสำหรับแต่ละพารามิเตอร์ตามการประมาณค่าช่วงเวลาแรก (ค่าเฉลี่ย) และช่วงเวลาที่สอง (ความแปรปรวน) ของการไล่ระดับสีระหว่างการฝึกอบรม

พารามิเตอร์สำคัญของอดัมมักใช้ในการฝึกอบรม RNN-GAN คือ:

- อัตราการเรียนรู้ ($$ \ alpha $$): โดยทั่วไปตั้งค่าขนาดเล็ก (เช่น 0.0001 ถึง 0.001) สำหรับการฝึกอบรม GAN ที่มั่นคง
- อัตราการสลายตัวแบบเอ็กซ์โปเนนเชียลสำหรับการประมาณช่วงเวลาแรก ($$ \ beta_1 $$): โดยทั่วไปตั้งค่าประมาณ 0.5 ถึง 0.9; ต่ำกว่ามาตรฐาน 0.9 เพื่อลดการแกว่งในการฝึกอบรม GAN
- อัตราการสลายตัวแบบเลขชี้กำลังสำหรับการประมาณช่วงเวลาที่สอง ($$ \ beta_2 $$): โดยทั่วไปจะเก็บไว้ที่ 0.999
- Epsilon ($$ \ Epsilon $$): ค่าคงที่เล็ก ๆ เช่น $$ 10^{- 8} $$ เพื่อรักษาเสถียรภาพเชิงตัวเลข

ความสมดุลของโมเมนตัมและอัตราการเรียนรู้แบบปรับตัวของอดัมช่วยเอาชนะปัญหาเกี่ยวกับการสูญเสียที่ไม่หยุดนิ่งโดยเฉพาะอย่างยิ่งในการสร้างแบบจำลองลำดับด้วย RNNs ที่การไล่ระดับสีอาจไม่เสถียรหรือเบาบาง

ตัวอย่างการตั้งค่าการปฏิบัติทั่วไป

ในการตั้งค่า RNN-GAN ที่ใช้งานได้จริงโดยทั่วไปจะเห็นบางอย่างเช่น:

- Discriminator และ Generator ปรับให้เหมาะสมกับการสูญเสียข้ามไบนารีหรือตัวแปร
- การใช้ Adam Optimizer ด้วย $$ \ beta_1 = 0.5 $$, $$ \ beta_2 = 0.999 $$ และอัตราการเรียนรู้ประมาณ $$ 10^{- 4} $$ เพื่อให้แน่ใจว่ามีการอัปเดตที่สมดุล
- การฝึกอบรมเกี่ยวข้องกับการอัปเดตสลับกันระหว่าง discriminator และเครื่องกำเนิดไฟฟ้าตามการสูญเสียตามลำดับในแต่ละขั้นตอนการฝึกอบรมหรือมินิแบทช์

การเปลี่ยนแปลงและการวิจัยเพิ่มเติม

งานวิจัยเกี่ยวกับฟังก์ชั่นการสูญเสียสำหรับ Gans ยังคงพัฒนา การศึกษาบางอย่างแนะนำฟังก์ชั่นการสูญเสียแบบพารามิเตอร์หรือทั่วไป (เช่นขึ้นอยู่กับRã© NYI Divergence หรือ Pearson Divergences) เพื่อเพิ่มเสถียรภาพและประสิทธิภาพ การใช้สิ่งเหล่านี้กับ RNN-gans อาจเกี่ยวข้องกับการปรับเปลี่ยนวัตถุประสงค์การเลือกปฏิบัติและเครื่องกำเนิดไฟฟ้าตามลำดับ

นอกจากนี้การทำให้เกิดความผิดปกติด้วยตนเองและการสูญเสียคอมโพสิตที่รวมการสูญเสียของฝ่ายตรงข้ามกับการสร้างใหม่หรือการสูญเสียการจำแนกประเภทจะถูกนำมาใช้บางครั้งขึ้นอยู่กับงานเช่นการสร้างข้อความหรือการสังเคราะห์อนุกรมเวลา

สรุป

ฟังก์ชั่นการสูญเสีย RNN-GAN ทั่วไปกับ Adam Optimizer ใช้การสูญเสียที่ได้รับแรงบันดาลใจจาก GAN ดั้งเดิมรวมถึงการเข้าร่วมไบนารีข้ามกำลังสองน้อยที่สุดหรือการสูญเสีย Wasserstein ที่ปรับให้เข้ากับข้อมูลตามลำดับ การตั้งค่าพารามิเตอร์ของอดัมได้รับการปรับโดยเฉพาะเพื่อความมั่นคงของ GAN การรวมกันกับการสูญเสียเฉพาะลำดับนั้นเป็นเรื่องปกติที่จะเป็นแนวทางในการฝึกอบรมเครื่องกำเนิดไฟฟ้าที่ดีขึ้นเกี่ยวกับรูปแบบชั่วคราว วงดนตรีนี้อำนวยความสะดวกในการฝึกอบรมแบบจำลอง RNN ที่เป็นปฏิปักษ์ที่สร้างหรือสร้างลำดับอย่างมีประสิทธิภาพ

ข้อมูลอ้างอิงสำหรับข้อมูลนี้มาจากวรรณกรรมพื้นฐาน GAN แอปพลิเคชัน RNN-GAN และรูปแบบการใช้เครื่องมือเพิ่มประสิทธิภาพ