Sigmoid gating và sự chú ý tiềm ẩn nhiều đầu trong Deepseek-V3

Bạn có thể giải thích cách sigmoid gating tương tác với kiến trúc MLA trong Deepseek-V3

Để hiểu cách SigMoid Gating tương tác với kiến trúc chú ý nhiều đầu (MLA) trong DeepSeek-V3, hãy phá vỡ cả hai thành phần và vai trò của chúng trong mô hình.

Sự chú ý tiềm ẩn đa đầu (MLA)

** MLA là một thành phần chính của DeepSeek-V3, được thiết kế để tối ưu hóa cơ chế chú ý trong các mô hình dựa trên máy biến áp. Không giống như sự chú ý nhiều đầu truyền thống, MLA sử dụng nén khớp cấp thấp cho các phím và giá trị chú ý. Sự nén này làm giảm tính kích thước của các vectơ truy vấn (q), khóa (k) và giá trị (v) trước khi chúng vào cơ chế chú ý. Ví dụ: nếu đầu vào có hình dạng (chiều dài chuỗi Ã 2000), MLA có thể làm giảm các vectơ Q, K và V thành một hình dạng (chiều dài chuỗi Ã 100). Việc giảm này giảm thiểu đáng kể bộ nhớ cache giá trị khóa (KV) trong quá trình suy luận, dẫn đến thời gian xử lý nhanh hơn mà không hy sinh hiệu suất [5] [9].

sigmoid gating trong Deepseek-v3

Trong bối cảnh của DeepSeek-V3, gating sigmoid được sử dụng cùng với khung hỗn hợp của các chuyên gia (MOE). Khung MOE chia mạng lưới thần kinh lớn thành các mạng phụ chuyên dụng gọi là 'chuyên gia'. Đối với mỗi đầu vào, chỉ có một tập hợp con của các chuyên gia này được kích hoạt. Gating sigmoid được áp dụng cho cơ chế định tuyến quyết định các chuyên gia nào sẽ kích hoạt.

Tương tác với MLA

Mặc dù MLA chủ yếu tập trung vào việc tối ưu hóa quá trình chú ý, SigMoid Gating đóng một vai trò trong khung MOE, đây là một thành phần riêng biệt nhưng bổ sung của DeepSeek-V3. Khung MOE sử dụng gating sigmoid để quản lý các mã thông báo được chuyển đến các chuyên gia khác nhau. Không giống như Gating Softmax truyền thống, có thể dẫn đến các trường hợp cực đoan trong đó các chuyên gia nhất định được ưa chuộng hơn những người khác, SigMoid Gating giúp duy trì sự phân phối mã thông báo cân bằng hơn trên các chuyên gia. Sự cân bằng này là rất quan trọng để ngăn chặn sự sụp đổ định tuyến, trong đó mô hình có thể trở lại hành vi như một mô hình dày đặc, mất lợi ích hiệu quả của kiến trúc MOE [5].

Điều chỉnh độ lệch động

Deepseek-V3 giới thiệu các điều chỉnh thiên vị động để đảm bảo cân bằng tải giữa các chuyên gia. Các thuật ngữ thiên vị được thêm vào điểm quan hệ chuyên môn trước khi đưa ra quyết định định tuyến. Những sai lệch này được điều chỉnh động trong quá trình đào tạo: nếu một chuyên gia bị quá tải, sự thiên vị của nó sẽ giảm và nếu nó bị tải xuống, sự thiên vị của nó sẽ tăng lên. Cơ chế này đảm bảo rằng tải vẫn được cân bằng mà không cần dựa vào các chức năng mất phụ trợ, có thể tác động tiêu cực đến hiệu suất mô hình [5].

Tóm lại, trong khi MLA tối ưu hóa cơ chế chú ý cho suy luận nhanh hơn, thì sigmoid trong khung MOE giúp quản lý việc định tuyến mã thông báo cho các chuyên gia, đảm bảo sử dụng hiệu quả và cân bằng các tài nguyên tính toán. Sự kết hợp này giúp tăng cường hiệu suất và hiệu quả của DeepSeek-V3.

Trích dẫn:
[1] https://fireworks.ai/blog/deepseek-model-architecture
[2] https://huggingface.co/deepseek-ai/deepseek-v3
[3] https://arxiv.org/abs/1609.07160
.
[5] https://machinelearningatscale.substack.com/p/deepseek-v3-model
.
.
[8] https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1
[9] https://pub.towardsai.net/deepseek-r1-model-architecture-853fefac7050

Bạn có thể giải thích cách sigmoid gating tương tác với kiến ​​trúc MLA trong Deepseek-V3

Sự chú ý tiềm ẩn đa đầu (MLA)

sigmoid gating trong Deepseek-v3

Tương tác với MLA

Điều chỉnh độ lệch động

Bạn có thể giải thích cách sigmoid gating tương tác với kiến trúc MLA trong Deepseek-V3