Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon สามารถนำไปใช้กับข้อมูลประเภทอื่นนอกเหนือจากรูปภาพ


สามารถนำไปใช้กับข้อมูลประเภทอื่นนอกเหนือจากรูปภาพ


Cyclegan เดิมออกแบบมาสำหรับงานการแปลภาพเป็นภาพซึ่งขยายเกินกว่าข้อมูลภาพและสามารถนำไปใช้กับประเภทข้อมูลอื่น ๆ ได้โดยใช้ประโยชน์จากหลักการหลักของการแปลข้อมูลที่ไม่ได้จับคู่ด้วยความสอดคล้องของวงจร ความยืดหยุ่นนี้เกิดขึ้นจากกลไกพื้นฐานของ Cyclegan ซึ่งเกี่ยวข้องกับการเรียนรู้การทำแผนที่ระหว่างสองโดเมนผ่านสองเครื่องกำเนิดไฟฟ้าและสอง discriminators เสริมด้วยการสูญเสียความสอดคล้องของวงจรเพื่อให้แน่ใจว่าการแปลจากโดเมนหนึ่งไปอีกโดเมนหนึ่ง แม้ว่า Cyclegan จะได้รับการแนะนำเป็นครั้งแรกและใช้เป็นหลักสำหรับงานโดเมนภาพการปรับตัวและการขยายแนวคิดแสดงยูทิลิตี้ในประเภทข้อมูลอื่น ๆ

หลักการทั่วไปของ Cyclegan

Cyclegan เป็นรูปแบบของเครือข่ายฝ่ายตรงข้าม (GAN) ที่ออกแบบมาสำหรับการแปลโดเมนที่ไม่มีคู่ GAN แบบดั้งเดิมต้องการอินพุตข้อมูลที่จับคู่ซึ่งการแมประหว่างตัวอย่างเฉพาะในแหล่งกำเนิดและโดเมนเป้าหมาย Cyclegan ลบความจำเป็นนี้โดยใช้การสูญเสียความสอดคล้องของวงจรนอกเหนือจากการสูญเสียของฝ่ายตรงข้ามซึ่งบังคับใช้ว่าการแปลจากโดเมน A ไปยังโดเมน B จากนั้นกลับไปที่โดเมน A ส่งคืนอินพุตดั้งเดิมดังนั้นจึงรักษาเนื้อหาเฉพาะโดเมนในขณะที่เรียนรู้รูปแบบหรือการแปลคุณสมบัติ

หลักการนี้ในขณะที่เริ่มต้นกับภาพในขั้นต้นนั้นสามารถสรุปได้ทั่วไปกับข้อมูลใด ๆ ที่สามารถแสดงในรูปแบบโดเมนที่เหมาะสมสำหรับการสร้างแบบจำลองการกำเนิด โดยทั่วไปแล้วสถาปัตยกรรมจะเกี่ยวข้องกับเครือข่ายประสาทแบบ convolutional เมื่อประมวลผลภาพเพื่อจับคุณสมบัติเชิงพื้นที่ แต่หลักการความสอดคล้องของวัฏจักรเดียวกันสามารถปรับให้เข้ากับสถาปัตยกรรมเครือข่ายประสาทอื่น ๆ ขึ้นอยู่กับการปรับข้อมูล

แอปพลิเคชันนอกเหนือจากรูปภาพ: ข้อความเสียงวิดีโอและอื่น ๆ

ข้อมูลข้อความ

เฟรมเวิร์กที่มีลักษณะคล้าย Cyclegan ได้รับการสำรวจสำหรับการถ่ายโอนรูปแบบข้อความโดยที่เป้าหมายคือการแปลประโยคจากรูปแบบหนึ่งไปยังอีกรูปแบบหนึ่ง (เช่นจากทางการเป็นภาษาที่เป็นทางการหรือระหว่างภาษาที่แตกต่างกัน) ความท้าทายกับข้อความเมื่อเทียบกับภาพเป็นลักษณะที่ไม่ต่อเนื่องของภาษาและโครงสร้างตามลำดับ ดังนั้นแทนที่จะใช้อวน convolutional สถาปัตยกรรมเช่นเครือข่ายประสาทซ้ำ (RNNs) หรือหม้อแปลงถูกนำมาใช้

โมเดลที่ได้รับแรงบันดาลใจจาก Cyclegan บังคับใช้ความสอดคล้องของวงจรเพื่อให้แน่ใจว่าเนื้อหาความหมายยังคงไม่เปลี่ยนแปลงเมื่อเปลี่ยนรูปแบบข้อความโดยไม่ต้องใช้ชุดข้อมูลประโยคคู่ โมเดลเหล่านี้ยังใช้การฝึกอบรมที่เป็นปฏิปักษ์เพื่อให้แน่ใจว่าประโยคที่สร้างขึ้นจะจับลักษณะสไตล์ของโดเมนเป้าหมาย

ข้อมูลเสียง

ในการประมวลผลเสียง Cyclegan ได้รับการปรับให้เข้ากับงานต่าง ๆ เช่นการแปลงด้วยเสียงการเพิ่มประสิทธิภาพการพูดและการถ่ายโอนสไตล์การเล่น ตัวอย่างเช่นการแปลงเสียงของลำโพงหนึ่งให้ฟังเหมือนอีกอันเกี่ยวข้องกับการทำแผนที่โดเมนจากโดเมนเสียงหนึ่งไปอีกโดเมน ความสอดคล้องของวงจรช่วยรักษาเนื้อหาทางภาษาในขณะที่เปลี่ยนลักษณะของลำโพง

แอปพลิเคชั่นอื่นอยู่ในการเล่นที่ Cyclegan ใช้สำหรับการถ่ายโอนสไตล์ระหว่างประเภทหรือเครื่องมือ แทนที่จะใช้ภาพการเป็นตัวแทนความถี่เวลาเช่น spectrograms ถูกนำมาใช้ซึ่งช่วยให้เครือข่ายประสาทของ convolutional สามารถแยกคุณสมบัติที่มีความหมายในรูปแบบที่คล้ายกับภาพ แต่แสดงถึงเสียง

วิดีโอ

ข้อมูลวิดีโอเกี่ยวข้องกับมิติทางโลกและเชิงพื้นที่ทำให้ซับซ้อนกว่าภาพ ในการใช้หลักการ Cyclegan เครือข่าย 3D Convolutional หรือโครงสร้างที่เกิดขึ้นอีกสามารถรวมเข้ากับการเชื่อมโยงการเชื่อมโยงทางโลกในขณะที่ทำการแปลโดเมนเฟรมต่อเฟรมหรือในส่วนวิดีโอ

แอพพลิเคชั่นรวมถึงการแปลงวิดีโอวิดีโอจากสไตล์หนึ่งไปอีกรูปแบบหนึ่ง (วันต่อคืนฤดูร้อนถึงฤดูหนาว) หรือเพิ่มคุณภาพวิดีโอ หลักการความสอดคล้องของวัฏจักรทำให้มั่นใจได้ว่าการเชื่อมโยงเนื้อหาของวิดีโอจะถูกเก็บรักษาไว้ผ่านรอบการแปล

ข้อมูลทางการแพทย์และวิทยาศาสตร์

Cyclegan ใช้กันอย่างแพร่หลายในการถ่ายภาพทางการแพทย์เพื่อแปลระหว่างรังสีถ่ายภาพที่แตกต่างกันเช่นจาก MRI ไปยังการสแกน CT หรือจากภาพขนาดต่ำไปจนถึงภาพขนาดสูง ที่นี่ข้อมูลยังคงเป็นภาพ แต่มักจะหลายมิติและไม่ใช่ภาพธรรมชาติซึ่งต้องมีการปรับตัวในสถาปัตยกรรมเครือข่ายที่เหมาะสมสำหรับข้อมูลปริมาตร

นอกเหนือจากการถ่ายภาพแล้วยังมีแอพพลิเคชั่นที่เกิดขึ้นใหม่ที่เครือข่ายที่มีลักษณะคล้าย Cyclegan แปลการเป็นตัวแทนข้อมูลทางวิทยาศาสตร์ทำให้การเพิ่มหรือการแปลงโดยไม่มีชุดข้อมูลที่จับคู่ ซึ่งอาจรวมถึงข้อมูลเชิงพื้นที่เรดาร์และข้อมูลหลายส่วนที่ใช้ในการตรวจจับระยะไกล

การดัดแปลงคีย์สำหรับข้อมูลที่ไม่ใช่ภาพ

1. การปรับสถาปัตยกรรม:
- สำหรับข้อมูลที่ไม่ใช่ภาพเช่นข้อความหรือเสียงเครื่องกำเนิดไฟฟ้าของ Cyclegan และ discriminators ได้รับการจัดโครงสร้างเพื่อให้เหมาะกับแบบฟอร์มข้อมูล (เช่นหม้อแปลงสำหรับข้อความเครือข่าย convolutional สำหรับ spectrograms ในเสียง)
- การพึ่งพาชั่วคราวในข้อมูลเสียงหรือวิดีโออาจใช้เลเยอร์ที่เกิดขึ้นซ้ำหรือชั่วคราว

2. การแสดงอินพุต:
- ข้อมูลข้อความต้องการการฝังหรือโทเค็นเพื่อแปลงลำดับเป็นตัวแทนพื้นที่เวกเตอร์
- เสียงใช้ spectrograms หรือรูปคลื่นดิบที่เปลี่ยนเป็นรูปแบบที่คล้อยตามสำหรับการประมวลผล convolutional

3. ฟังก์ชั่นการสูญเสีย:
- ในขณะที่การสูญเสียความสอดคล้องของวัฏจักรยังคงเป็นศูนย์กลางเงื่อนไขการสูญเสียเพิ่มเติมเช่นการสูญเสียเนื้อหาการสูญเสียสไตล์หรือการสูญเสียการรับรู้อาจถูกรวมเข้าด้วยกันเพื่อจัดการกับความท้าทายเฉพาะรูปแบบ (เช่นการรักษาความหมายทางภาษาในข้อความ)

4. ความท้าทายในการฝึกอบรม:
- ข้อมูลที่ไม่ใช่ภาพมักจะต้องใช้ชุดข้อมูลขนาดใหญ่และการประมวลผลล่วงหน้าที่ซับซ้อนมากขึ้น
- ตัวชี้วัดการประเมินผลแตกต่างกันไป ตัวอย่างเช่นการถ่ายโอนข้อความต้องการการวัดความคล้ายคลึงกันและความคล่องแคล่วในขณะที่เสียงต้องใช้คุณภาพเสียงและตัวชี้วัดตัวตนของลำโพง

กรณีการวิจัยและการใช้งานในอุตสาหกรรม

- การแปลงเสียงในเทคโนโลยีการพูด: บริษัท ได้พัฒนาโมเดลตาม Cyclegan เพื่อแปลงคำพูดจากลำโพงหนึ่งเป็นเสียงเหมือนชุดข้อมูลคำพูดแบบขนาน สิ่งนี้เป็นประโยชน์ต่อความเป็นส่วนตัวในผู้ช่วยเสมือนและการสังเคราะห์การพูดโดยไม่ต้องบันทึกการจับคู่อย่างกว้างขวาง
- การถ่ายโอนสไตล์ข้อความในการประมวลผลภาษาธรรมชาติ: งานวิชาการใช้กรอบงาน Cyclegan สำหรับงานเช่นการถ่ายโอนความเชื่อมั่นหรือเปลี่ยนรูปแบบการเขียนการเปิดใช้งานการควบคุมเนื้อหาอัตโนมัติหรือการสร้างในโทนเสียงที่หลากหลาย
- การสังเคราะห์ภาพทางการแพทย์: เครื่องมือวินิจฉัยที่เพิ่มขึ้นใช้ประโยชน์จาก Cyclegan เพื่อสร้างรังสีที่ขาดหายไปหรือเพิ่มคุณภาพของภาพปรับปรุงการวิเคราะห์ดาวน์สตรีมโดยไม่จำเป็นต้องมีการรวบรวมข้อมูลคู่ที่มีราคาแพง
- การตรวจจับระยะไกล: Cyclegan ช่วยในการเปลี่ยนภาพดาวเทียมจากเซ็นเซอร์ชนิดหนึ่งไปยังอีกประเภทหนึ่งหรือเพิ่มข้อมูลเพื่อปรับปรุงการจำแนกประเภทที่ดินและงานการทำแผนที่โดยไม่ต้องใช้ภาพจับคู่

ข้อ จำกัด และข้อควรพิจารณา

ในขณะที่วิธีการที่สอดคล้องกันรอบพื้นฐานของ Cyclegan นั้นสามารถปรับได้โดเมนที่ไม่ใช่ภาพนำเสนอความท้าทายที่ไม่ซ้ำกันเช่นความกระจัดกระจายของข้อมูลความซับซ้อนของการเป็นตัวแทนและความยากลำบากในการประเมิน แอปพลิเคชันที่ประสบความสำเร็จต้องการการออกแบบอย่างระมัดระวังของสถาปัตยกรรมเครื่องกำเนิด/discriminator การเป็นตัวแทนอินพุตที่เหมาะสมและฟังก์ชั่นการสูญเสียเฉพาะโดเมน นอกจากนี้ความเสถียรในการฝึกอบรมและการล่มสลายของโหมดยังคงเป็นข้อกังวลในทางปฏิบัติซึ่งมักจะได้รับการแก้ไขผ่านฟังก์ชั่นการทำให้เป็นมาตรฐานและการเติมวัตถุประสงค์

โดยสรุปเฟรมเวิร์กของ Cyclegan สูตรสำหรับการแปลภาพเป็นภาพที่ไม่มีภาพนั้นใช้งานได้เกินกว่าภาพสำหรับประเภทข้อมูลอื่น ๆ รวมถึงข้อความเสียงวิดีโอการแพทย์และข้อมูลการตรวจจับระยะไกล แต่ละประเภทต้องการการปรับตัวที่ปรับแต่งในการออกแบบเครือข่ายและกลยุทธ์การฝึกอบรมเพื่อให้สอดคล้องกับโครงสร้างโดยธรรมชาติในขณะที่ยังคงหลักการหลักของ Cyclegan ของความสอดคล้องของวัฏจักรเพื่อรักษาเนื้อหาในการแปลงโดเมน