Dữ liệu đào tạo cho Deepseek-R1 và Llama 3.1 thể hiện một số khác biệt chính, phản ánh các phương pháp khác nhau để phát triển mô hình.
DeepSeek-R1 Dữ liệu đào tạo
Deepseek-R1 được đào tạo bằng cách sử dụng quy trình nhiều giai đoạn kết hợp học tập củng cố (RL) với tinh chỉnh được giám sát (SFT). Mô hình bắt đầu với giai đoạn "khởi động lạnh", trong đó nó được tinh chỉnh trên một bộ nhỏ các ví dụ được chế tác cẩn thận để cải thiện sự rõ ràng và khả năng đọc. Điều này được theo sau bởi RL thuần túy để tăng cường các kỹ năng lý luận, tương tự như R1-Zero. Gần hội tụ RL, mô hình sử dụng lấy mẫu từ chối để tạo dữ liệu tổng hợp bằng cách chọn các ví dụ tốt nhất từ các lần chạy RL trước đó. Dữ liệu tổng hợp này sau đó được hợp nhất với dữ liệu được giám sát từ DeepSeek-V3-Base trong các miền như viết, QA thực tế và tự nhận thức. Giai đoạn cuối cùng liên quan đến một vòng RL khác trên các lời nhắc và kịch bản khác nhau để khái quát hóa thêm các khả năng của mô hình [1] [4].
Llama 3.1 Dữ liệu đào tạo
Llama 3.1, mặt khác, được đào tạo trên một kho khổng lồ khoảng 15 nghìn tỷ mã thông báo từ các nguồn có sẵn công khai, với ngày giới hạn kiến thức vào tháng 12 năm 2023 [8]. Bộ dữ liệu đào tạo bao gồm sự kết hợp cân bằng của các lĩnh vực chung, dữ liệu toán học và lý luận, văn bản đa ngôn ngữ và mã từ các ngôn ngữ lập trình khác nhau để tăng cường khả năng tạo mã và hiểu các khả năng của mã [5]. Mô hình trải qua đào tạo trước ban đầu bằng cách sử dụng mục tiêu dự đoán tiếp theo, tiếp theo là đào tạo trước bối cảnh dài để xử lý các tài liệu dài và các nhiệm vụ lý luận phức tạp. Hỗn hợp dữ liệu được điều chỉnh cẩn thận để cải thiện hiệu suất trên các tác vụ cụ thể, chẳng hạn như tăng dữ liệu không tiếng Anh cho các khả năng đa ngôn ngữ và dữ liệu toán học lấy mẫu lên để lý luận tốt hơn [2] [5].
Sự khác biệt chính
1. Phương pháp đào tạo: Deepseek-R1 phụ thuộc rất nhiều vào việc học tập củng cố và tạo dữ liệu tổng hợp, trong khi Llama 3.1 sử dụng phương pháp học tập được giám sát truyền thống hơn với bộ dữ liệu đào tạo trước lớn.
2. Nguồn dữ liệu: Deepseek-R1 sử dụng kết hợp dữ liệu khởi động lạnh ban đầu và dữ liệu tổng hợp được tạo ra trong quá trình RL. Ngược lại, Llama 3.1 được đào tạo trên một kho dữ liệu có sẵn công khai.
3. Khối lượng và chất lượng dữ liệu: LLAMA 3.1 được đào tạo trên một bộ dữ liệu lớn hơn nhiều (~ 15 nghìn tỷ mã thông báo) so với bộ dữ liệu ban đầu tương đối nhỏ được sử dụng cho DeepSeek-R1. Tuy nhiên, việc sử dụng dữ liệu tổng hợp của DeepSeek-R1 cho phép nó đạt được hiệu suất cao trong các nhiệm vụ lý luận mặc dù bộ dữ liệu ban đầu nhỏ hơn.
4. Khu vực tập trung: Cả hai mô hình tập trung vào việc cải thiện khả năng lý luận và kiến thức, nhưng Deepseek-R1 nhấn mạnh vào lý luận thông qua RL, trong khi Llama 3.1 cũng tập trung vào khả năng đa ngôn ngữ và mã hóa.
Nhìn chung, dữ liệu đào tạo cho Deepseek-R1 và Llama 3.1 phản ánh các chiến lược khác nhau trong phát triển mô hình, với DeepSeek-R1 tận dụng dữ liệu RL và tổng hợp để đạt được khả năng suy luận mạnh mẽ và LLAMA 3.1 dựa vào phương pháp học tập được giám sát quy mô lớn để bao gồm nhiều tác vụ.
Trích dẫn:
[1] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[2] https://www.linkedin.com/pulse/dissecting-llama-31-deep-dive-benedict-smith-agi6f
[3] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-8b-instruct
[4] https://huggingface.co/blog/open-r1
[5] https://kili-technology.com/large-language-models-llms/llama-3-1-guide-what-to-know-about-meta-s-new-405b-model-and-its-data
[6] https://docsbot.ai/models/compare/deepseek-r1/llama-3-1-405b-instruct
[7] https://www.datacamp.com/tutorial/fine-tuning-deepseek-r1-reasoning-model
[8] https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct
[9] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-against-openais-o1