Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Làm thế nào để DeepSeek R1 duy trì bối cảnh trong các cuộc trò chuyện dài


Làm thế nào để DeepSeek R1 duy trì bối cảnh trong các cuộc trò chuyện dài


Deepseek R1 sử dụng một số chiến lược sáng tạo để duy trì bối cảnh trong các cuộc trò chuyện dài, tận dụng các phương pháp đào tạo và kiến ​​trúc nâng cao của nó.

Các tính năng kiến ​​trúc

** Hỗn hợp kiến ​​trúc chuyên gia (MOE)
Deepseek R1 sử dụng hỗn hợp kiến ​​trúc chuyên gia, cho phép nó chỉ kích hoạt một tập hợp con gồm 671 tỷ tham số trong mỗi lần vượt qua, cụ thể là 37 tỷ. Sự kích hoạt có chọn lọc này giúp tăng cường đáng kể hiệu quả tính toán, cho phép mô hình xử lý các chuỗi mở rộng lên tới 128.000 mã thông báo trong khi duy trì độ gắn kết và độ chính xác trong các phản ứng của nó [1] [3]. Hệ thống định tuyến MOE được thiết kế để chuyên môn hóa các chuyên gia khác nhau cho các nhiệm vụ lý luận khác nhau, điều này rất quan trọng để quản lý các cuộc đối thoại phức tạp và đảm bảo rằng mô hình có thể theo dõi cùng với các cuộc hội thoại mở rộng mà không mất theo dõi ngữ cảnh.

Phương pháp đào tạo

** Phương pháp tiếp cận học tập tăng cường (RL)
Không giống như các mô hình truyền thống phụ thuộc rất nhiều vào tinh chỉnh có giám sát, Deepseek R1 được đào tạo chủ yếu bằng cách sử dụng học tập củng cố. Phương pháp này cho phép mô hình phát triển khả năng lý luận một cách tự động. Quá trình đào tạo bao gồm nhiều giai đoạn: bắt đầu bằng dữ liệu bắt đầu lạnh để thiết lập nền tảng vững chắc, tiếp theo là RL thuần túy để tăng cường các kỹ năng lý luận và đỉnh cao là đào tạo RL tiếp theo trên các lời nhắc khác nhau [2] [4]. Cách tiếp cận nhiều giai đoạn này giúp mô hình học hỏi từ cả dữ liệu có cấu trúc và các tương tác trong thế giới thực, điều này rất cần thiết để duy trì bối cảnh trên các trao đổi dài hơn.

** Sử dụng dữ liệu bắt đầu lạnh
Giai đoạn đào tạo ban đầu kết hợp dữ liệu khởi động lạnh được quản lý cẩn thận giúp cải thiện khả năng đọc và sự gắn kết trong các phản ứng. Dữ liệu này đảm bảo rằng đầu ra của mô hình không chỉ chính xác mà còn thân thiện với người dùng, giải quyết các vấn đề phổ biến được tìm thấy trong các lần lặp trước đó như khả năng đọc kém và pha trộn ngôn ngữ [2] [4]. Bằng cách thiết lập một định dạng đầu ra có cấu trúc bao gồm các quy trình lý luận và tóm tắt, Deepseek R1 giữ lại bối cảnh trong suốt các cuộc hội thoại dài.

Hiệu suất và quản lý bối cảnh

Khả năng xử lý các bối cảnh dài của DeepSeek R1 có thể so sánh với các mô hình hàng đầu trong lĩnh vực này. Hiệu suất của nó trên các điểm chuẩn khác nhau cho thấy khả năng duy trì dòng chảy rõ ràng và logic ngay cả khi tham gia vào các cuộc đối thoại phức tạp. Thiết kế của mô hình cho phép nó tạo ra hàng ngàn mã thông báo lý luận cho mỗi phản hồi trong khi đảm bảo rằng cuộc trò chuyện vẫn mạch lạc [1] [3]. Ngoài ra, việc tích hợp các cơ chế tự nhận và phản ánh cho phép nó đánh giá lại các tuyên bố trước đó và duy trì tính liên tục trong các cuộc thảo luận.

Nhìn chung, Deepseek R1 đại diện cho một tiến bộ đáng kể trong việc duy trì bối cảnh đàm thoại thông qua kiến ​​trúc tinh vi và thực hành đào tạo sáng tạo.

Trích dẫn:
[1] https://unprintai.com/deepseek-r1/
[2] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it
[3] https://c3.unu.edu/blog/deepseek-r1-pioneering-open-source-thinking-model-and-its-impact-on-the-llm-landscape
[4] https://arxiv.org/html/2501.12948v1
[5] https://forum.cursor.com/t/deepseek-r1-cancelled/44578
.
[7] https://github.com/deepseek-ai/deepseek-r1/actions
[8] https://news.ycombinator.com/item?id=42823568
|@.