Trong Deepseek-V3, chức năng Sigmoid đóng một vai trò quan trọng trong việc tính toán điểm số quan hệ đối với định tuyến chuyên gia trong hỗn hợp của kiến trúc chuyên gia (MOE). Không giống như các mô hình MOE truyền thống thường sử dụng chức năng SoftMax để bình thường hóa điểm số ái lực, DeepSeek-V3 sử dụng chức năng SigMoid. Thay đổi này tác động đến mô hình theo nhiều cách:
1. Chuẩn hóa và định tuyến: Hàm sigmoid được sử dụng để tính toán điểm số ái lực, sau đó được chuẩn hóa trong số tất cả các điểm số ái lực được chọn để tạo ra các giá trị gating. Cách tiếp cận này cho phép một cơ chế định tuyến linh hoạt và sắc thái hơn so với SoftMax, đôi khi có thể dẫn đến sự sụp đổ định tuyến trong đó các chuyên gia nhất định được ưa chuộng quá mức [4] [7].
2. Tránh sự sụp đổ định tuyến: Sự sụp đổ định tuyến xảy ra khi hầu hết các mã thông báo được chuyển đến một tập hợp nhỏ các chuyên gia, dẫn đến việc sử dụng không hiệu quả các tài nguyên tính toán. Deepseek-V3 giảm thiểu điều này bằng cách sử dụng sigmoid gating và giới thiệu các thuật ngữ thiên vị để điều chỉnh động trong quá trình đào tạo. Các thuật ngữ sai lệch này giúp cân bằng tải trọng trên các chuyên gia mà không dựa vào tổn thất phụ trợ có thể ảnh hưởng tiêu cực đến hiệu suất mô hình [4] [9].
3. Điều khoản thiên vị và điều chỉnh động: Mô hình kết hợp các thuật ngữ thiên vị cho từng chuyên gia, được thêm vào điểm số quan hệ trước khi chọn các chuyên gia Top-K. Các thuật ngữ thiên vị này được điều chỉnh động dựa trên tải của từng chuyên gia. Nếu một chuyên gia bị quá tải, thuật ngữ thiên vị của nó giảm và nếu nó bị tải xuống, thuật ngữ thiên vị sẽ tăng. Điều này đảm bảo phân phối cân bằng các mã thông báo trên các chuyên gia mà không cần tổn thất bổ sung [4] [8].
4. Mất phụ trợ theo trình tự bổ sung: Mặc dù Deepseek-V3 chủ yếu tránh tổn thất phụ trợ, nhưng nó bao gồm một tổn thất cân bằng theo trình tự nhỏ để ngăn chặn các trường hợp cực đoan trong đó một chuỗi duy nhất ủng hộ một tập hợp nhỏ các chuyên gia. Mất mát này hoạt động như một biện pháp bảo vệ mà không ảnh hưởng đáng kể đến động lực đào tạo tổng thể [4].
5. Định tuyến giới hạn nút: Để kiểm soát chi phí giao tiếp, DeepSeek-V3 sử dụng định tuyến giới hạn nút, trong đó mỗi mã thông báo được gửi đến hầu hết các nút M dựa trên điểm số có ái lực cao nhất. Chiến lược này cho phép sự chồng chéo giao tiếp gần như đầy đủ trong quá trình đào tạo, tăng cường hiệu quả [4].
Nhìn chung, việc sử dụng chức năng SigMoid trong DeepSeek-V3 cho phép cơ chế định tuyến linh hoạt và hiệu quả hơn, góp phần vào khả năng của mô hình để cân bằng việc sử dụng chuyên gia mà không phải hy sinh hiệu suất.
Trích dẫn:
.
[2] https://community.aws/content/2rJj1WkztSfYwVfsIibhWxeqMf1/four-unique-takeaways-from-deepseek-v3?lang=en
[3] https://docs.openvino.ai/2025/notebooks/yolov11-keypoint-detection-with-output.html
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.gopubby.com/deepseek-v3-explained-3-auxiliary-loss-free-load-balancing-4beeb734ab1f
[6] https://neurips.cc/virtual/2024/poster/96407
[7] https://www.gdsprs.com/bbs/board.php?bo_table=free&wr_id=2559&sst=wr_hit&sod=desc&sop=and&page=147&device=pc
[8] https://www.mlsys.ai/papers/deepseek_v3.html
[9] https://gonzoml.substack.com/p/deepseek-v3-technical-details