Cyclegan, ban đầu được phát triển để dịch hình ảnh-hình ảnh không được giám sát, thực sự có thể được điều chỉnh cho các tác vụ dịch văn bản sang văn bản, bao gồm chuyển kiểu văn bản và dịch máy thần kinh, mặc dù với một số khác biệt và thách thức quan trọng so với các ứng dụng dựa trên hình ảnh của nó.
Chu kỳ đáng chú ý về khả năng học ánh xạ giữa hai miền mà không yêu cầu các ví dụ đào tạo được ghép nối, trong đó giải quyết một thách thức đáng kể trong nhiều nhiệm vụ văn bản trong đó các tập đoàn song song quy mô lớn (ví dụ văn bản được ghép nối) có thể không có sẵn. Chu kỳ hoạt động bằng cách học hai ánh xạ: một từ miền A đến miền B và một giây từ miền B đến miền A, sử dụng đào tạo đối nghịch. Một sự đổi mới quan trọng là mất tính nhất quán của chu kỳ, đảm bảo rằng khi một mẫu được ánh xạ từ miền này sang miền khác và trở lại, nó sẽ trở lại đầu vào ban đầu. Ràng buộc theo chu kỳ này giúp duy trì tính nhất quán nội dung mặc dù làm việc với dữ liệu không ghép đôi.
Ứng dụng chuyển sang kiểu văn bản
Chuyển kiểu văn bản là quá trình tái tạo nội dung theo phong cách mới trong khi bảo tồn nội dung và ý nghĩa gốc. Với khó khăn trong việc có được dữ liệu văn bản được ghép nối trong đó cùng một câu được viết theo nhiều phong cách, phương pháp đào tạo không ghép đôi của chu kỳ đặc biệt thuận lợi. Các nhà nghiên cứu đã triển khai các mô hình dựa trên chu kỳ để chuyển giao phong cách giữa các phong cách viết khác nhau, chẳng hạn như thơ của các tác giả khác nhau hoặc sự phân cực tình cảm thay đổi (ví dụ: từ tình cảm tích cực đến tiêu cực và ngược lại).
Ví dụ, trong các thí nghiệm với các đánh giá Yelp, một chu kỳ được điều chỉnh để chuyển kiểu văn bản (đôi khi được gọi là textcyclegan) đã thể hiện khả năng tạo ra các phép biến đổi thông thạo và chính xác về mặt phong cách mà không yêu cầu văn bản song song. Mô hình đã học cách chuyển kiểu hai chiều chuyển các đánh giá tích cực thành các đánh giá tiêu cực và ngược lại trong khi chủ yếu duy trì nội dung gốc. Tuy nhiên, hiệu suất là không đồng đều, với một số chuyển khoản (ví dụ: tiêu cực đến tích cực) đạt được độ chính xác cao hơn so với điều ngược lại, cho thấy những thách thức về phong cách và sự phân biệt nội dung trong văn bản so với hình ảnh.
Kiến trúc kết hợp các trình tạo và phân biệt đối xử chuyên về dữ liệu văn bản, thường sử dụng các mô hình nhúng hoặc trình tự để biểu diễn văn bản. Mất tính nhất quán chu kỳ khuyến khích văn bản dịch, khi được dịch trở lại, để mang lại văn bản gốc, giúp duy trì ý nghĩa ngữ nghĩa trong quá trình thay đổi phong cách. Bất chấp lời hứa, việc chuyển phong cách hoàn hảo trong văn bản vẫn là một thách thức, với việc duy trì các từ tình cảm ban đầu hoặc tạo văn bản trung lập thay vì chuyển đổi phong cách chính xác.
Cyclegan cho dịch máy thần kinh (NMT)
Các nguyên tắc của chu kỳ cũng đã được mở rộng sang dịch máy thần kinh, đặc biệt đối với các tập đoàn không song song. NMT được giám sát truyền thống phụ thuộc rất nhiều vào các bộ dữ liệu được ghép nối lớn, không có sẵn cho nhiều cặp ngôn ngữ. Bằng cách sử dụng mất tính nhất quán chu kỳ, các mô hình được đào tạo để dịch các câu từ ngôn ngữ A sang ngôn ngữ B và trở lại ngôn ngữ A, với mục tiêu dịch thuật khứ hồi này tái tạo lại văn bản gốc một cách trung thực.
Một ví dụ gần đây là Framework CycleGN, một kiến trúc dựa trên biến áp lấy cảm hứng từ Cyclegan. Nó giới thiệu một cách tiếp cận nhất quán chu kỳ để dịch máy không yêu cầu Corpora văn bản song song. Hai mô hình được đào tạo đồng thời: một mô hình chuyển từ nguồn sang ngôn ngữ đích và một mô hình khác để đảo ngược. Mục tiêu đào tạo khuyến khích quá trình dịch thuật không thể đảo ngược, có nghĩa là dịch ngược tái tạo lại đầu vào ban đầu. Cách tiếp cận này đã cho thấy kết quả đầy hứa hẹn trong việc học các tác vụ dịch thuật trên các cặp ngôn ngữ với các bộ dữ liệu không được phân bổ, làm cho nó trở thành một đại lộ hấp dẫn cho các ngôn ngữ có nguồn lực thấp và đại diện.
Những thách thức và thích ứng cho văn bản
Mặc dù Khung Cyclegan có thể chuyển đổi về mặt khái niệm từ hình ảnh sang văn bản, dữ liệu văn bản đưa ra những thách thức độc đáo:
- Biểu diễn riêng biệt: Hình ảnh là dữ liệu có giá trị liên tục, cho phép các luồng độ dốc mượt mà cần thiết trong đào tạo GAN; Văn bản là rời rạc, yêu cầu nhúng và đôi khi học tập củng cố hoặc kỹ thuật ước tính độ dốc để xử lý các đầu ra mã thông báo riêng biệt.
- Bảo tồn ngữ nghĩa: Không giống như hình ảnh trong đó các kiểu liên quan chủ yếu đến ngoại hình, văn bản đòi hỏi phải lưu giữ ý nghĩa ngữ nghĩa trong khi thay đổi phong cách, phức tạp hơn do sắc thái trong ngôn ngữ, ngữ pháp và bối cảnh.
- Các số liệu đánh giá: Đánh giá văn bản liên quan đến sự lưu loát, bảo quản nội dung và độ chính xác về kiểu, chủ quan và khó định lượng hơn so với độ chính xác ở cấp độ pixel trong hình ảnh.
- Kiến trúc mô hình: Trình tạo và phân biệt đối xử cho văn bản cần xử lý dữ liệu tuần tự bằng các mô hình như LSTMS, GRUS hoặc máy biến áp. Các mạng tích chập ban đầu của Cyclegan phải được điều chỉnh phù hợp.
Tóm tắt các trường hợp sử dụng
- Chuyển kiểu văn bản: Cyclegan đã được áp dụng thành công để chuyển kiểu văn bản mà không có dữ liệu được ghép nối, chẳng hạn như chuyển giao tình cảm hoặc chuyển đổi kiểu tác giả, duy trì sự cân bằng giữa duy trì nội dung và sửa đổi phong cách.
- Bản dịch máy thần kinh không được giám sát: Bằng cách thực thi tính nhất quán của chu kỳ, các mô hình lấy cảm hứng từ chu kỳ có thể tìm hiểu các ánh xạ dịch từ Corpora song ngữ không ghép đôi, giảm bớt nhu cầu về các bộ dữ liệu song song tốn kém.
-Text-to-image và hình ảnh với văn bản: Các tác vụ đa phương thức liên quan sử dụng tính nhất quán của chu kỳ để tạo hình ảnh từ văn bản và chú thích từ hình ảnh, hiển thị tính linh hoạt của chu kỳ trong việc xử lý các miền dữ liệu văn bản.
Những tiến bộ và triển vọng nghiên cứu
Nghiên cứu gần đây tiếp tục thích nghi và cải thiện Cyclegan cho các nhiệm vụ văn bản bằng cách tích hợp đào tạo cấp trình tự tốt hơn, học tập tự giám sát và kiến trúc dựa trên máy biến áp. Những nỗ lực tập trung vào việc cải thiện sự không đồng nhất về phong cách, độ ổn định đào tạo và độ chính xác dịch thuật, đặc biệt đối với các ngôn ngữ hoặc ngôn ngữ có nguồn lực thấp trong đó sự khan hiếm dữ liệu song song bị cấm.
Tóm lại, chu kỳ có thể được sử dụng một cách hiệu quả để dịch và chuyển kiểu văn bản sang văn bản, tận dụng dữ liệu không ghép đôi thông qua tổn thất thống nhất chu kỳ và đào tạo bất lợi. Điều này làm cho nó trở thành một công cụ mạnh mẽ cho các tác vụ NLP trong đó việc có được tập đoàn được ghép đôi là khó khăn, cho phép các bản dịch và biến đổi duy trì nội dung ngữ nghĩa trong khi thay đổi phong cách hoặc ngôn ngữ. Tuy nhiên, sự thích ứng cho dữ liệu riêng biệt, bảo quản ngữ nghĩa và độ phức tạp đánh giá phân biệt các ứng dụng văn bản với sử dụng chu kỳ dựa trên hình ảnh. Những phát triển đang diễn ra này tiếp tục mở rộng tiện ích của Cyclegan trong miền văn bản.
Tài liệu tham khảo:- "Điều chỉnh kiến trúc Cyclegan để chuyển kiểu văn bản", Michà © La Lorandi và cộng sự, Đại học Thành phố Dublin.
- "Chu kỳ: Một cách tiếp cận nhất quán chu kỳ cho dịch máy thần kinh", Sören Drà © Ano et al., ACL 2024.
-"Bản dịch văn bản sang hình ảnh bằng cách sử dụng GaN nhất quán chu kỳ", ARXIV 2018.
-"Chuyển kiểu văn bản tự giám sát bằng cách sử dụng GaN phù hợp với chu kỳ", ACM 2024.