Trong Deepseek-V3, điểm số ái lực đóng một vai trò quan trọng trong quá trình lựa chọn chuyên gia trong kiến trúc hỗn hợp (MOE) của nó. Kiến trúc này được thiết kế để xử lý hiệu quả các tác vụ mô hình ngôn ngữ quy mô lớn bằng cách kích hoạt động một tập hợp các chuyên gia dựa trên các mã thông báo đầu vào.
Tính toán điểm quan hệ
Điểm quan hệ được tính là sản phẩm DOT của việc nhúng mã thông báo đầu vào và tâm điểm cụ thể của một chuyên gia. Centroid có thể được coi là một vectơ đại diện cho mỗi chuyên gia, có thể được lấy từ các kích hoạt trung bình hoặc đầu vào mà chuyên gia xử lý. Sản phẩm DOT này đo lường mức độ liên kết chặt chẽ của mã thông báo với chuyên môn của từng chuyên gia có sẵn.
Quy trình lựa chọn chuyên gia
1. Định tuyến Top-K: Đối với mỗi mã thông báo đầu vào, DeepSeek-V3 chọn 8 chuyên gia hàng đầu với điểm số có ái lực cao nhất. Quá trình này được gọi là định tuyến Top-K, trong đó K được cố định ở 8 trong trường hợp này [1] [7].
2. Điều chỉnh sai lệch: Để ngăn chặn sự sụp đổ định tuyến, trong đó quá nhiều mã thông báo được chuyển đến cùng một chuyên gia, DeepSeek-V3 giới thiệu một điều chỉnh thiên vị động. Mỗi chuyên gia có một thuật ngữ thiên vị $$ b_i $$ được thêm vào điểm quan hệ của nó trong quá trình định tuyến. Nếu một chuyên gia bị quá tải, sự thiên vị của nó sẽ giảm và nếu nó không được sử dụng đúng mức, độ lệch của nó sẽ tăng lên. Điều chỉnh này giúp duy trì khối lượng công việc cân bằng trên tất cả các chuyên gia mà không cần sử dụng tổn thất phụ trợ rõ ràng [1] [3].
3. Cơ chế gating: Cơ chế giao dịch tính toán điểm cho mỗi mã thông báo và chọn các chuyên gia được định tuyến phù hợp nhất dựa trên các điểm số này. Điều này đảm bảo rằng mô hình phân bổ hiệu quả các tài nguyên tính toán bằng cách chỉ kích hoạt các chuyên gia cần thiết cho mỗi mã thông báo [3].
Lợi ích của điểm số mối quan hệ
- Hiệu quả: Bằng cách chọn các chuyên gia dựa trên điểm số có ái lực, DeepSeek-V3 giảm chi phí tính toán bằng cách chỉ kích hoạt một phần tổng số tham số của mô hình cho mỗi mã thông báo. Điều này dẫn đến các quá trình đào tạo và suy luận hiệu quả hơn [4] [8].
- Chuyên môn hóa: Điểm quan hệ cho phép chuyên môn hóa tốt hơn giữa các chuyên gia. Mỗi chuyên gia có thể tập trung vào các mẫu hoặc nhiệm vụ cụ thể, tăng cường sức mạnh đại diện chung của mô hình và khả năng xử lý các đầu vào đa dạng [1] [2].
- Tính ổn định: Điều chỉnh thiên vị động đảm bảo rằng không có chuyên gia nào bị quá tải, duy trì sự ổn định trong cả đào tạo và suy luận. Điều này ngăn chặn mô hình giảm mã thông báo do quá tải, đó là một vấn đề trong các phiên bản trước [2] [3].
Tóm lại, điểm số mối quan hệ trong DeepSeek-V3 là rất quan trọng để lựa chọn động các chuyên gia phù hợp nhất cho mỗi mã thông báo đầu vào, đảm bảo xử lý hiệu quả và chuyên dụng trong khi duy trì sự ổn định của mô hình.
Trích dẫn:
[1)
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://www.youtube.com/watch?v=bv7ct-_spqy
[4] https://www.linkedin.com/pulse/what-main-benefit-mixture-experts-moe-models-qi-he-nkgbe
[5] https://www.linkedin.com/pulse/unpacking-deepseek-v3-technical-innovations-question-cost-statton-juplc
[6] https://latenode.com/blog/deepseek-v3-and-deepseek-r1-integrations-are-now-on-latenode
[7] https://www.linkedin.com/pulse/dynamically-selecting-number-expert-moe-models-like-deepseek-rosi%C4%87-ckytf
[8] https://arxiv.org/html/2412.19437v1
[9] https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond