Tối ưu hóa chính sách tương đối (GRPO) trong DeepSeek R1: Tăng cường lý luận AI

Thuật toán tối ưu hóa chính sách tương đối (GRPO) của nhóm đóng vai trò gì trong khóa đào tạo của Deepseek R1

Thuật toán tối ưu hóa chính sách tương đối (GRPO) của nhóm đóng một vai trò quan trọng trong việc đào tạo Deepseek R1, tăng cường khả năng lý luận của nó thông qua phương pháp học tập củng cố hợp lý (RL).

Tổng quan về GRPO

GRPO là một thuật toán học tập củng cố mới để sửa đổi các phương pháp truyền thống như tối ưu hóa chính sách gần (PPO) bằng cách loại bỏ sự cần thiết của một mô hình chức năng giá trị riêng biệt, giúp đơn giản hóa quá trình đào tạo và giảm sử dụng bộ nhớ. Thay vì dựa vào mô hình phê bình để đánh giá đầu ra, GRPO sử dụng các so sánh thống kê giữa nhiều đầu ra được tạo để đánh giá hiệu suất so với mức trung bình nhóm [1] [3]. Phương pháp này cho phép mô hình tìm hiểu hiệu quả hơn bằng cách tập trung vào các lợi thế dựa trên nhóm thay vì đánh giá đầu ra riêng lẻ.

Quy trình đào tạo trong DeepSeek R1

Trong bối cảnh của Deepseek R1, GRPO tạo điều kiện cho việc học củng cố quy mô lớn mà không cần tinh chỉnh được giám sát. Mô hình tạo ra nhiều giải pháp ứng cử viên cho mỗi lời nhắc và tính toán phần thưởng dựa trên độ chính xác và tuân thủ của chúng với các định dạng được chỉ định. Hệ thống phần thưởng dựa trên quy tắc này đảm bảo rằng quy trình đào tạo vừa tiết kiệm tài nguyên vừa có thể mở rộng [2] [4]. Việc không có dữ liệu được giám sát cho phép Deepseek R1 phát triển tự chủ các khả năng lý luận thông qua tương tác với môi trường của nó, dẫn đến các hành vi giải quyết vấn đề sáng tạo [6] [7].

Ưu điểm chính của GRPO trong DeepSeek R1

- Loại bỏ mô hình phê bình: Bằng cách loại bỏ nhà phê bình, GRPO giảm chi phí tính toán và độ phức tạp liên quan đến việc duy trì hai mạng lưới thần kinh riêng biệt (diễn viên và nhà phê bình), là điển hình trong các thiết lập RL truyền thống [3] [9].
- Tính toán phần thưởng dựa trên nhóm: Thuật toán sử dụng hiệu suất trung bình của một nhóm đầu ra làm cơ sở để tính toán lợi thế, phù hợp hơn với bản chất của đào tạo mô hình phần thưởng thường liên quan đến nhiều đầu ra cho một đầu vào duy nhất [1] [5].
- Hiệu quả được cải thiện: Quá trình được sắp xếp hợp lý không chỉ tăng cường hiệu quả học tập mà còn cho phép Deepseek R1 đạt được hiệu suất tương đương với các mô hình lớn hơn trong khi rẻ hơn đáng kể để đào tạo và vận hành [2] [6].

Tóm lại, GRPO không thể thiếu trong khóa đào tạo của Deepseek R1, cho phép nó học hiệu quả các kỹ năng lý luận thông qua khung học tập củng cố hiệu quả và có thể mở rộng hơn. Sự đổi mới này định vị Deepseek R1 là một mô hình cạnh tranh trong các nhiệm vụ lý luận phức tạp, cạnh tranh đã thiết lập các hệ thống AI trong khi thúc đẩy khả năng tiếp cận trong phát triển AI.

Trích dẫn:
[1] https://www.philschmid.de/deepseek-r1
[2] https://composio.dev/blog/notes-on-the-new-deepseek-r1/
[3] https://dev.to/aws/takeaways-from-the-deepseek-r1-model-2dli
[4] https://myedgetech.com/deepseek-r1-t/
[5] https://aipapersacademy.com/deepseek-r1/
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-reasoning-20-ramachandran-xakme
[7] https://arxiv.org/html/2501.12948v1
[8] https://arxiv.org/pdf/2402.03300.pdf
[9] https://dev.to/sayed_ali_alkamel/deepseek-r1-the-open-source-ai-thats-making-waves-on-a-budget-13ik