Deepseek sử dụng một loạt các thuật toán học máy tiên tiến để tạo công thức và lý luận toán học, đặc biệt là trong các mô hình như Deepseek R1. Dưới đây là tổng quan chi tiết về các kỹ thuật cụ thể được sử dụng:
1. Lời nhắc về chuỗi (COT): Deepseek R1 tận dụng các chuỗi suy nghĩ dài để tăng cường lý luận toán học. Điều này liên quan đến việc cấu trúc các lời nhắc theo cách hướng dẫn mô hình thông qua các quy trình lý luận từng bước, tương tự như cách con người giải quyết các vấn đề phức tạp [2]. Bằng cách tạo dữ liệu đào tạo tổng hợp dựa trên các lời nhắc COT này, DeepSeek R1 có thể cải thiện khả năng giải quyết các vấn đề toán học hiệu quả hơn so với các mô hình lớn hơn.
2. Bắt đầu tinh chỉnh lạnh: Ban đầu, Deepseek R1 trải qua quá trình điều chỉnh lạnh bắt đầu bằng cách sử dụng bộ dữ liệu nhỏ gọn có lý luận từng bước. Giai đoạn ban đầu này đặt nền tảng vững chắc cho khả năng suy luận của mô hình [6] [8]. Việc sử dụng dữ liệu bắt đầu lạnh giúp thiết lập một cách tiếp cận có cấu trúc để giải quyết vấn đề.
3. Học tập củng cố (RL): Theo dõi tinh chỉnh ban đầu, Deepseek R1 sử dụng học tập củng cố thuần túy để tăng cường các kỹ năng lý luận của mình. Quá trình này liên quan đến việc tự động chấm điểm các câu trả lời mẫu để thúc đẩy mô hình đối với các hành vi mong muốn, chẳng hạn như cung cấp các giải pháp từng bước cho các vấn đề toán học [7] [8]. RL rất quan trọng để phát triển khả năng lý luận của mô hình mà không cần dựa vào dữ liệu được dán nhãn.
4. Lấy mẫu từ chối và tinh chỉnh được giám sát: Gần sự hội tụ của quy trình RL, DeepSeek R1 sử dụng lấy mẫu từ chối để tạo dữ liệu tổng hợp. Dữ liệu tổng hợp này sau đó được hợp nhất với dữ liệu được giám sát từ các lĩnh vực khác nhau để tiếp tục tinh chỉnh kiến thức và độ chính xác của mô hình [8]. Bước này đảm bảo rằng mô hình học được từ cả đầu ra chất lượng cao và kiến thức cụ thể về miền đa dạng.
5. Tối ưu hóa chính sách tương đối nhóm (GRPO): Deepseek đã phát triển GRPO, một thuật toán mới được thiết kế để làm cho việc học củng cố hiệu quả hơn. GRPO được sử dụng để tối ưu hóa quy trình đào tạo, cho phép mô hình hoạt động tốt trên nhiều điểm chuẩn [7]. Mặc dù GRPO không chi tiết cụ thể cho việc tạo công thức, nhưng nó góp phần vào hiệu quả chung của các quy trình đào tạo của Deepseek.
6. Mỗi giai đoạn được xây dựng dựa trên giai đoạn trước, đảm bảo rằng mô hình phát triển khả năng lý luận mạnh mẽ trong khi duy trì khả năng đọc và kết hợp [6] [8]. Cách tiếp cận có cấu trúc này là chìa khóa để đạt được hiệu suất cao trong các nhiệm vụ lý luận toán học.
Tóm lại, các khả năng tạo công thức của Deepseek được hỗ trợ bởi sự kết hợp của các kỹ thuật NLP tiên tiến, chiến lược học tập củng cố và các thuật toán sáng tạo như GRPO. Các phương pháp này cho phép các mô hình DeepSeek vượt trội trong các nhiệm vụ lý luận và giải quyết vấn đề.
Trích dẫn:
[1] https://kalm.works/en/contents/technology/what-is-deepseek-differences-from-chatgpt-and-use-cases
[2] https://www.youtube.com/watch?v=PABQG33SURG
[3] https://planetbanatt.net/articles/deepseek.html
[4] https://martinfowler.com/articles/deepseek-papers.html
[5] https://www.inferless.com/learn/the-ultimate-guide-to-deepseek-models
.
.
[8] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it