Deepseek R1 tăng cường khả năng lý luận của nó thông qua phương pháp học tập củng cố mới (RL) phân kỳ từ các phương pháp tinh chỉnh được giám sát truyền thống (SFT). Chiến lược sáng tạo này cho phép mô hình phát triển các kỹ năng lý luận một cách độc lập và hiệu quả.
Khung học tập củng cố
DeepSeek R1 sử dụng tối ưu hóa chính sách tương đối (GRPO) của nhóm, khung RL dựa trên quy tắc cho phép mô hình học hỏi từ thử nghiệm và lỗi mà không cần dựa vào các bộ dữ liệu được dán nhãn trước. Cách tiếp cận này cho phép mô hình khám phá một không gian giải pháp rộng lớn, khám phá các mô hình và chiến lược lý luận độc đáo có thể không có trong dữ liệu đào tạo có giám sát [1] [2] [4]. Bằng cách khuyến khích lý luận trong quá trình RL, Deepseek R1 có thể tạo ra các chuỗi suy nghĩ mạch lạc và tham gia vào sự tự xác định và phản ánh, rất quan trọng đối với việc giải quyết vấn đề phức tạp [4].
Quy trình đào tạo nhiều giai đoạn
Việc đào tạo Deepseek R1 được chia thành nhiều giai đoạn:
1. Giai đoạn bắt đầu lạnh: Mô hình bắt đầu với một lượng nhỏ dữ liệu được giám sát chất lượng cao được thu thập từ người tiền nhiệm của nó, Deepseek R1-Zero. Giai đoạn này giúp giảm thiểu các vấn đề như khả năng đọc kém và pha trộn ngôn ngữ đã được quan sát thấy trong các mô hình trước đó [1] [2].
2. RL định hướng lý luận: Sau khi bắt đầu lạnh, mô hình trải qua đào tạo RL định hướng lý luận rộng rãi. Giai đoạn này tập trung vào việc tăng cường khả năng trong các lĩnh vực cụ thể như mã hóa, toán học và logic, trong đó các giải pháp rõ ràng có thể được xác định bằng các quy tắc phần thưởng [3] [4].
3. Tinh chỉnh dữ liệu mới: Sau khi đào tạo RL ban đầu, dữ liệu được giám sát mới được tạo ra thông qua lấy mẫu từ chối dựa trên điểm kiểm tra RL. Dữ liệu này sau đó được sử dụng để tinh chỉnh thêm, cho phép mô hình tinh chỉnh khả năng lý luận của nó trên các nhiệm vụ khác nhau [1] [2].
Kết quả hiệu suất
Kết quả của quá trình đào tạo nghiêm ngặt này là một mô hình đạt được mức hiệu suất tương đương với các mô hình hàng đầu như O1-1217 của Openai về các nhiệm vụ lý luận. Ví dụ, Deepseek R1 đã chứng minh những cải thiện đáng kể về điểm chuẩn, với tỷ lệ vượt qua tăng từ 15,6% lên 71% trong các nhiệm vụ AIME 2024, thể hiện khả năng lý luận nâng cao của nó [1] [2].
Tóm lại, phương pháp tiếp cận học tập củng cố của Deepseek R1 không chỉ thúc đẩy lý luận độc lập mà còn tăng cường hiệu quả giải quyết vấn đề bằng cách giảm thiểu sự phụ thuộc vào các bộ dữ liệu được giám sát rộng rãi. Điều này định vị nó là một công cụ mạnh mẽ trong cảnh quan của các mô hình ngôn ngữ lớn.
Trích dẫn:[1] https://arxiv.org/html/2501.12948v1
[2] https://myedgetech.com/deepseek-r1-t/
[3] https://www.youtube.com/watch?v=DCQQCLLSIBU
[4] https://arbisoft.com/blogs/deep-seek-r1-the-chinese-ai-powerhouse-outperforming-open-ai-s-o1-at-95-less-cost
[5] https://github.com/deepseek-ai/deepseek-r1/actions
[6] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1
[7] https://arxiv.org/abs/2501.12948
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it