Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Làm thế nào để Deepseek xử lý các yêu cầu mã thông báo quy mô lớn


Làm thế nào để Deepseek xử lý các yêu cầu mã thông báo quy mô lớn


Deepseek, một công ty khởi nghiệp AI Trung Quốc đang phát triển nhanh chóng, sử dụng một số chiến lược để quản lý hiệu quả các yêu cầu mã thông báo quy mô lớn, đặc biệt là thông qua mô hình mới nhất của nó, DeepSeek-V3. Mô hình này sử dụng kiến ​​trúc hỗn hợp (MOE), cho phép nó kích hoạt có chọn lọc một tập hợp các tham số cho mỗi mã thông báo được xử lý. Cụ thể, DeepSeek-V3 có tổng cộng 671 tỷ tham số, nhưng chỉ có 37 tỷ được kích hoạt cho mỗi mã thông báo trong khi suy luận. Thiết kế này tăng cường đáng kể hiệu quả tính toán so với các mô hình dày đặc truyền thống, trong đó tất cả các tham số được tham gia cho mọi yêu cầu [1] [4].

Để tối ưu hóa hiệu suất hơn nữa, Deepseek-V3 thực hiện một chiến lược cân bằng tải hiệu quả trong suốt quá trình đào tạo và suy luận của nó. Cách tiếp cận này đảm bảo rằng không có mã thông báo nào bị loại bỏ trong cả hai giai đoạn. Mô hình duy trì số dư tải tốt bằng cách sử dụng cơ chế định tuyến bị hạn chế nhằm hạn chế chi phí giao tiếp và cho phép sự chồng chéo giao tiếp gần như đầy đủ. Do đó, DeepSeek-V3 có thể xử lý khối lượng yêu cầu mã thông báo lớn mà không phải hy sinh hiệu suất hoặc độ tin cậy [2] [4].

Về mặt đào tạo, Deepseek-V3 được đào tạo trước trên một bộ dữ liệu rộng rãi bao gồm 14,8 nghìn tỷ mã thông báo, sau đó là các giai đoạn của việc tinh chỉnh và học tập củng cố được giám sát để tinh chỉnh các khả năng của nó. Quá trình đào tạo được thiết kế để ổn định và hiệu quả, hoàn thành trong vòng chưa đầy hai tháng với tổng chi phí khoảng 5,576 triệu đô la trong giờ GPU [1] [2]. Việc sử dụng tài nguyên hiệu quả này cho phép DeepSeek mở rộng quy mô hiệu quả trong khi quản lý các yêu cầu mã thông báo quy mô lớn trên các dịch vụ của mình.

Nhìn chung, kiến ​​trúc sáng tạo và phương pháp chiến lược của Deepseek cho phép nó xử lý các yêu cầu mã thông báo đáng kể một cách hiệu quả, khiến nó trở thành một người chơi cạnh tranh trong bối cảnh AI.

Trích dẫn:
[1] https://thehackernews.com/2025/01/top-rated-chinese-ai-app-deepseek.html
[2] https://arxiv.org/html/2412.19437v1
.
[4] https://encord.com/blog/deepseek-ai/
[5] https://www.techtarget.com/whatis/feature/DeepSeek-explained-Everything-you-need-to-know
.
[7] https://www.cnbc.com/2025/01/27/deepseek-hit-with-large-scale-cyberattack-says-its-limiting-registrations.html
[8] https://daily.dev/blog/deepseek-everything-you-need-to-know-about-this-new-llm-in-one-place