Deepseek-R1 giải quyết các vấn đề trộn ngôn ngữ thông qua quy trình đào tạo nhiều giai đoạn kết hợp học tập củng cố (RL) với tinh chỉnh được giám sát (SFT). Ban đầu, mô hình bắt đầu bằng phiên bản cơ sở (DeepSeek-V3-Base) được tinh chỉnh bằng cách sử dụng một bộ dữ liệu "khởi động lạnh" nhỏ, giúp thiết lập nền tảng có cấu trúc để hiểu các ngôn ngữ và ngữ cảnh khác nhau [1] [2 ].
Mô hình sau đó sử dụng các kỹ thuật RL thuần túy để tăng cường khả năng lý luận của nó. Tuy nhiên, trong quá trình đào tạo, người ta đã quan sát thấy rằng sự pha trộn ngôn ngữ có thể xảy ra, đặc biệt là khi xử lý các truy vấn bằng các ngôn ngữ khác ngoài tiếng Anh hoặc tiếng Trung. Ví dụ, DeepSeek-R1 có thể mặc định là tiếng Anh để lý luận và phản hồi ngay cả khi đầu vào bằng ngôn ngữ khác [5] [6]. Để giảm thiểu điều này, mô hình sử dụng lấy mẫu từ chối để tạo dữ liệu đào tạo tổng hợp từ các lần chạy RL thành công, sau đó được hợp nhất với dữ liệu được giám sát chất lượng cao từ các lĩnh vực khác nhau. Quá trình này giúp cải thiện khả năng thích ứng của mô hình với các ngôn ngữ khác nhau và giảm khả năng trộn các ngôn ngữ trong các phản hồi [1] [4].
Hơn nữa, nghiên cứu đang diễn ra nhằm mục đích tối ưu hóa Deepseek-R1 để có hiệu suất tốt hơn trên phạm vi ngôn ngữ rộng hơn trong khi giải quyết các hạn chế hiện tại của nó trong việc xử lý các đầu vào ngôn ngữ hỗn hợp một cách hiệu quả. Các bản cập nhật trong tương lai dự kiến sẽ tinh chỉnh các khả năng của nó trong lĩnh vực này, tăng cường khả năng đáp ứng và chính xác của nó khi tương tác với người dùng trong bối cảnh ngôn ngữ đa dạng [2] [5].
Trích dẫn:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
.
.
[4] https://unprintai.com/deepseek-r1/
[5] https://arxiv.org/html/2501.12948v1
[6] https://github.com/deepseek-ai/deepseek-r1/blob/main/readme.md
[7] https://github.com/deepseek-ai/deepseek-r1/activity
[8] https://arxiv.org/html/2501.17030v1