Chức năng kích hoạt sigmoid trong định tuyến chuyên gia DeepSeek-V3

Chức năng kích hoạt sigmoid đóng vai trò gì trong quá trình định tuyến chuyên gia của DeepSeek-V3

Trong DeepSeek-V3, chức năng kích hoạt SigMoid đóng một vai trò quan trọng trong quá trình định tuyến chuyên gia bằng cách sửa đổi cách làm việc được gán cho các chuyên gia. Không giống như các phiên bản trước đó sử dụng chức năng SoftMax, DeepSeek-V3 sử dụng chức năng sigmoid để tính toán điểm số ái lực giữa các token và chuyên gia. Sự thay đổi này giúp ngăn chặn xác suất lựa chọn chuyên gia cực đoan, điều này có thể dẫn đến sự sụp đổ định tuyến một tình huống mà mô hình ủng hộ một vài chuyên gia so với những người khác, làm giảm lợi ích của chuyên môn và hiệu quả.

Chức năng kích hoạt SigMoid trong định tuyến chuyên gia

Hàm sigmoid, được ký hiệu là $$ \ sigma (\ cdot) $$, được sử dụng để tính điểm quan hệ giữa mã thông báo và một chuyên gia. Cụ thể, điểm số $$ s_ {i, t} $$ cho mã thông báo $$ T $$ và chuyên gia $$ I $$ được tính toán như:
$$ s_ {i, t} = \ sigma (u_t^t e_i) $$
Trong đó $$ u_t $$ là nhúng mã thông báo và $$ e_i $$ là vectơ centroid của chuyên gia $$ i $$. Điểm số này phản ánh mức độ phù hợp với chuyên gia của chuyên gia.

bình thường hóa và lựa chọn

Sau khi tính toán các điểm số này, DeepSeek-V3 bình thường hóa chúng và chọn các chuyên gia hàng đầu-$$ K_R $$ dựa trên các điểm số được chuẩn hóa này. Quá trình này đảm bảo rằng mỗi mã thông báo được chuyển đến một tập hợp các chuyên gia phù hợp nhất với nó, thúc đẩy xử lý hiệu quả và chuyên dụng.

Điều khoản sai lệch để cân bằng tải

Để ngăn chặn sự sụp đổ định tuyến và đảm bảo phân phối tải cân bằng giữa các chuyên gia, DeepSeek-V3 giới thiệu các thuật ngữ sai lệch có thể điều chỉnh động. Các thuật ngữ thiên vị này được thêm vào điểm số mối quan hệ trước khi chọn các chuyên gia hàng đầu. Nếu một chuyên gia bị quá tải, thuật ngữ thiên vị của nó bị giảm và nếu nó bị tải xuống, thuật ngữ sai lệch sẽ tăng lên. Cơ chế này đảm bảo rằng tải vẫn được cân bằng mà không cần dựa vào các chức năng mất phụ trợ, có thể tác động tiêu cực đến hiệu suất mô hình [1] [3].

Lợi ích của sigmoid so với softmax

Sử dụng chức năng SigMoid thay vì SoftMax giúp tách rời xác suất lựa chọn của các chuyên gia khác nhau. Trong SoftMax, các xác suất được chuẩn hóa thành một, điều này có thể dẫn đến xác suất cực đoan khi một chuyên gia được ưa chuộng đáng kể. Mặt khác, Sigmoid cho phép các phân công xác suất linh hoạt và độc lập hơn, giảm khả năng sụp đổ định tuyến và thúc đẩy sử dụng chuyên gia cân bằng hơn [4].

Nhìn chung, chức năng kích hoạt SigMoid trong DeepSeek-V3 giúp tăng cường khả năng của mô hình để định tuyến mã thông báo hiệu quả đến các chuyên gia có liên quan trong khi duy trì khối lượng công việc cân bằng, rất quan trọng để đạt được hiệu suất cao và hiệu quả tính toán trong các kiến trúc hỗn hợp quy mô lớn (MOE).

Trích dẫn:
[1)
[2] https://aman.ai/primers/ai/deepseek-r1/
[3] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[4] https://mlfrontiers.substack.com/p/understanding-deepseek-v3
[5] https://docs.nvidia.com/nemo-framework/user-guide/latest/llms/deepseek_v3.html
[6] https://planetbanatt.net/articles/deepseek.html
[7] https://arxiv.org/pdf/2412.19437.pdf
[8] https://builtin.com/machine-learning/sigmoid-activation-function