So sánh các cơ chế định tuyến chuyên gia trong Deepseek-V2 và Deepseek-V3

Sự khác biệt chính giữa các cơ chế định tuyến chuyên gia trong Deepseek-V2 và Deepseek-V3

Sự khác biệt chính giữa các cơ chế định tuyến chuyên gia trong Deepseek-V2 và Deepseek-V3 có thể được tóm tắt như sau:

Định tuyến chuyên gia DeepSeek-V2

-Cơ chế định tuyến giới hạn thiết bị: DeepSeek-V2 sử dụng cơ chế định tuyến giới hạn thiết bị để phân phối các chuyên gia trên nhiều thiết bị. Cách tiếp cận này đảm bảo rằng các chuyên gia mục tiêu cho mỗi mã thông báo được trải rộng trên một số lượng hạn chế các thiết bị, thường chọn các chuyên gia Top-K từ các thiết bị này. Chiến lược này giúp quản lý chi phí giao tiếp và đảm bảo xử lý song song hiệu quả [1] [5].

-Mất phụ trợ cho cân bằng tải: DeepSeek-V2 giới thiệu ba loại tổn thất phụ trợ, mức độ chuyên gia, cấp thiết bị và cấp độ giao tiếp để duy trì cân bằng tải trong quá trình đào tạo. Những tổn thất này giúp ngăn ngừa sự sụp đổ định tuyến bằng cách đảm bảo rằng không có chuyên gia nào được sử dụng quá mức trong khi những người khác vẫn không được sử dụng đúng mức [1] [6].

- Số lượng chuyên gia và kích hoạt: Deepseek-V2 có 160 chuyên gia cộng với hai chuyên gia chia sẻ, chỉ có sáu chuyên gia được kích hoạt trong quá trình suy luận. Kích hoạt chọn lọc này làm giảm đáng kể số lượng tham số hoạt động, làm cho mô hình hiệu quả hơn [5].

Định tuyến chuyên gia DeepSeek-V3

- Tăng chuyên môn chuyên môn: Deepseek-V3 xây dựng kiến trúc MOE bằng cách tăng số lượng chuyên gia được định tuyến trên mỗi lớp lên 60%, từ 160 lên 256. Điều này tăng cường khả năng kiến thức và trí nhớ của mô hình [2].

- Các chuyên gia chia sẻ: Deepseek-V3 vẫn giữ được khái niệm về các chuyên gia được chia sẻ, luôn được kích hoạt. Mỗi lớp mạng chuyển tiếp thức ăn (FFN) có một chuyên gia được chia sẻ và có ba lớp trong đó tất cả các chuyên gia được kích hoạt, cải thiện khả năng của mô hình để nắm bắt kiến thức chung trên các bối cảnh [2] [4].

-Mối quan hệ mã thông báo đến chuyên gia: Việc gán mã thông báo cho các chuyên gia dựa trên ái lực với mã thông báo đến chuyên gia trong không gian nhúng. Tuy nhiên, Deepseek-V3 phải đối mặt với những thách thức liên quan đến sự sụp đổ định tuyến, nơi các mã thông báo có thể liên tục được chuyển đến cùng một chuyên gia, có khả năng cản trở việc đào tạo các chuyên gia khác [2].

- Chiến lược MOE tích cực: Deepseek-V3 áp dụng chiến lược MOE tích cực hơn, sử dụng độ chính xác của FP8 để đào tạo, cho phép tính toán và mở rộng hiệu quả hơn. Cách tiếp cận này cho phép mô hình tận dụng kích hoạt thưa thớt một cách hiệu quả, tối ưu hóa việc sử dụng các tham số trong quá trình suy luận [2] [4].

Tóm lại, trong khi cả hai mô hình sử dụng kiến trúc MOE để định tuyến hiệu quả và kích hoạt thưa thớt, DeepSeek-V3 tăng cường phương pháp này với sự chuyên môn hóa chuyên môn, các chiến lược MOE tích cực hơn và điều chỉnh các cấu hình chuyên gia được chia sẻ. Deepseek-V2 tập trung vào đào tạo kinh tế và suy luận hiệu quả thông qua các khoản lỗ phụ trợ giới hạn thiết bị và cân bằng tải.

Trích dẫn:
[1] https://arxiv.org/pdf/2405.04434.pdf
[2] https://fireworks.ai/blog/deepseek-model-architecture
[3] https://www.chipstrat.com/p/deepseek-moe-and-v2
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://thesalt.substack.com/p/deepseek-v2-a-huge-llm-with-efficient
[6] https://stratechery.com/2025/deepseek-faq/
[7] https://arxiv.org/html/2405.04434v3
[8] https://www.youtube.com/watch?v=4UCNSFBQMDA