Sigmoid Gating trong Deepseek-V3 đóng một vai trò quan trọng trong việc ngăn chặn sự sụp đổ định tuyến, một vấn đề phổ biến trong các mô hình hỗn hợp (MOE) trong đó một số chuyên gia luôn được ưa chuộng hơn những người khác, dẫn đến đào tạo và sử dụng không hiệu quả các tài nguyên mô hình. Đây là cách SigMoid Gating giúp:
Gating Softmax truyền thống so với Sigmoid Gating
Các mô hình MOE truyền thống thường sử dụng Gating SoftMax, có thể dẫn đến kịch bản "người chiến thắng tất cả". Đầu ra mềm được chuẩn hóa để đảm bảo chúng tổng cộng 1, điều này có thể dẫn đến xác suất cực đoan trong đó một chuyên gia được chọn gần như độc quyền, đặc biệt là nếu trọng lượng ban đầu của nó tốt hơn một chút. Điều này có thể khiến các chuyên gia khác được sử dụng đúng mức và bị thiếu, dẫn đến sự sụp đổ định tuyến.
Ngược lại, sigmoid gating gán cho mỗi chuyên gia một số điểm từ 0 đến 1 một cách độc lập, mà không cần chuẩn hóa giữa các chuyên gia. Điều này có nghĩa là nhiều chuyên gia có thể có điểm số cao đồng thời, cho phép phân phối mã thông báo cân bằng hơn trên các chuyên gia. Sigmoid Gating không thực thi cạnh tranh chặt chẽ giữa các chuyên gia, giảm khả năng sụp đổ định tuyến bằng cách đảm bảo rằng mỗi chuyên gia có cơ hội công bằng để đóng góp [1] [4] [6].
Điều chỉnh độ lệch động
DeepSeek-V3 tiếp tục tăng cường năng lực sigmoid bằng cách giới thiệu các thuật ngữ thiên vị năng động cho từng chuyên gia. Những thành kiến này được điều chỉnh trong quá trình đào tạo dựa trên tải của từng chuyên gia. Nếu một chuyên gia bị quá tải, sự thiên vị của nó bị giảm để không khuyến khích định tuyến hơn nữa, trong khi các chuyên gia bị tải xuống có sự thiên vị của họ tăng lên để thu hút nhiều mã thông báo hơn. Điều chỉnh động này giúp duy trì tải cân bằng trên tất cả các chuyên gia, ngăn chặn bất kỳ chuyên gia nào thống trị các quyết định định tuyến và do đó ngăn chặn sự sụp đổ định tuyến [2] [4] [6].
Gating phân cấp
Deepseek-V3 cũng sử dụng giao dịch phân cấp, áp dụng các ràng buộc thưa thớt ở nhiều cấp độ. Ban đầu, một lựa chọn các chuyên gia thô được thực hiện, tiếp theo là lọc mịn hơn trong các nhóm được chọn. Cách tiếp cận phân cấp này đảm bảo rằng một tập hợp các chuyên gia đa dạng được kích hoạt cho mỗi mã thông báo, làm giảm thêm nguy cơ sụp đổ định tuyến bằng cách ngăn chặn quá trình đặc biệt và khuyến khích khái quát hóa trên các lĩnh vực khác nhau [1] [6].
Định tuyến giới hạn nút
Ngoài ra, DeepSeek-V3 sử dụng định tuyến giới hạn nút, hạn chế số lượng nút mà mỗi mã thông báo có thể giao tiếp. Chiến lược này giảm thiểu chi phí giao tiếp chéo, đảm bảo đào tạo và suy luận hiệu quả trong khi vẫn duy trì việc sử dụng chuyên gia cân bằng [6].
Tóm lại, sigmoid gating trong DeepSeek-V3 giúp ngăn chặn sự sụp đổ định tuyến bằng cách cho phép nhiều chuyên gia được kích hoạt đồng thời mà không buộc phải cạnh tranh nghiêm ngặt giữa họ. Điều chỉnh độ lệch động và cung cấp phân cấp đảm bảo thêm rằng mỗi chuyên gia được sử dụng hiệu quả, duy trì tải cân bằng và ngăn chặn bất kỳ chuyên gia nào thống trị các quyết định định tuyến.
Trích dẫn:
[1] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-NCyV
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://epochai.substack.com/p/how-has-deepseek-improved-the-transformer
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://fireworks.ai/blog/deepseek-model-architecture
[6] https://aman.ai/primers/ai/deepseek-r1/
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.kisekilabs.com/blog-posts/why-deepseek-v3-matters-in-the-world-of-llms