Deepseek-V3: Điều chỉnh độ lệch động và gating sigmoid để sử dụng chuyên gia hiệu quả

Trong DeepSeek-V3, việc điều chỉnh động các thuật ngữ thiên vị và gating sigmoid hợp tác với nhau để nâng cao hiệu quả và hiệu suất của mô hình bằng cách giải quyết vấn đề mất cân bằng tải giữa các chuyên gia. Dưới đây là một lời giải thích chi tiết về cách các thành phần này bổ sung cho nhau:

Điều chỉnh động của các điều khoản thiên vị

Deepseek-V3 giới thiệu một thuật ngữ thiên vị cho mỗi chuyên gia, được điều chỉnh động trong quá trình đào tạo để duy trì cân bằng tải. Cách tiếp cận này tránh sự cần thiết của các tổn thất phụ trợ có thể tác động tiêu cực đến hiệu suất mô hình bằng cách buộc nó ưu tiên cân bằng tải so với các quyết định định tuyến tối ưu. Thuật ngữ thiên vị được thêm vào điểm số quan hệ chuyên môn trước khi đưa ra quyết định định tuyến Top-K, nhưng nó không ảnh hưởng đến giá trị gating, có nguồn gốc từ điểm quan hệ ban đầu. Điều này đảm bảo rằng sự đóng góp của chuyên gia vẫn còn nguyên vẹn trong khi thúc đẩy định tuyến cân bằng.

- Cơ chế điều chỉnh: Nếu một chuyên gia bị quá tải (nhận được nhiều mã thông báo hơn mức trung bình), thuật ngữ sai lệch của nó bị giảm. Ngược lại, nếu một chuyên gia bị tải xuống, thuật ngữ thiên vị của nó được tăng lên. Điều chỉnh này giúp ngăn chặn sự sụp đổ định tuyến, trong đó mô hình có thể ủng hộ một số chuyên gia quá mức, dẫn đến tính toán không hiệu quả và giảm lợi ích chuyên môn hóa.

Sigmoid Gating

Deepseek-V3 thay thế cho Gating SoftMax truyền thống bằng SigMoid Gating cho định tuyến chuyên gia. Sự thay đổi này cho phép mỗi chuyên gia có cơ hội được chọn công bằng, vì hàm sigmoid ánh xạ bất kỳ số có giá trị thực nào đến giá trị từ 0 đến 1. Không giống như SoftMax, có thể tạo ra một môi trường cạnh tranh giữa các chuyên gia (trong đó một chuyên gia có lợi là sự mất mát của người khác), SigMoid Gating đảm bảo rằng điểm của mỗi chuyên gia là độc lập.

- Lợi ích của SigMoid Gating: Cách tiếp cận này ngăn chặn mô hình ủng hộ quá mức một vài chuyên gia, điều này có thể dẫn đến việc sử dụng đúng mức các chuyên gia khác và giảm hiệu suất mô hình. Bằng cách cung cấp cho mỗi chuyên gia một cú sút công bằng, SigMoid Gating thúc đẩy việc sử dụng các chuyên gia cân bằng và đa dạng hơn, nâng cao khả năng và hiệu quả của mô hình.

Mất phụ trợ theo trình tự bổ sung

Trong khi cơ chế chính là không mất phụ trợ, DeepSeek-V3 cũng kết hợp mất cân bằng trình tự bổ sung. Mất mát này, được kiểm soát bởi một siêu nhân rất nhỏ, hoạt động như một biện pháp bảo vệ để ngăn chặn các trường hợp cực đoan trong đó một chuỗi duy nhất có thể ủng hộ một tập hợp nhỏ các chuyên gia. Nó đảm bảo sự cân bằng trong mỗi chuỗi mà không ảnh hưởng đáng kể đến các động lực đào tạo tổng thể.

Làm thế nào điều chỉnh độ lệch động và gating sigmoid bổ sung cho nhau

1. Việc sử dụng chuyên gia cân bằng: Điều chỉnh động của các thuật ngữ thiên vị đảm bảo rằng không có chuyên gia nào được ưa chuộng quá mức hoặc không được sử dụng đúng mức, duy trì tải cân bằng trên tất cả các chuyên gia. Sigmoid Gating hỗ trợ điều này bằng cách cung cấp cho mỗi chuyên gia một số điểm độc lập, giảm cạnh tranh và đảm bảo rằng mọi chuyên gia đều có cơ hội đóng góp.

2. Định tuyến hiệu quả: Bằng cách điều chỉnh động các thuật ngữ sai lệch dựa trên việc sử dụng chuyên gia, mô hình có thể định tuyến mã thông báo một cách hiệu quả đến các chuyên gia phù hợp nhất mà không dựa vào tổn thất phụ trợ có thể ảnh hưởng đến hiệu suất. Gating SigMoid tạo điều kiện cho định tuyến hiệu quả này bằng cách cho phép một quy trình lựa chọn sắc thái hơn.

3. Hiệu suất mô hình được cải thiện: Sự kết hợp của điều chỉnh độ lệch động và gating sigmoid giúp tăng cường hiệu suất mô hình bằng cách đảm bảo rằng mỗi mã thông báo được xử lý bởi tập hợp các chuyên gia phù hợp nhất. Điều này dẫn đến chuyên môn và chia sẻ kiến thức tốt hơn giữa các chuyên gia, cải thiện khả năng của mô hình để xử lý các nhiệm vụ đa dạng một cách hiệu quả.

Tóm lại, việc điều chỉnh động của các thuật ngữ thiên vị và sigmoid trong DeepSeek-V3 hoạt động cùng nhau để đạt được sự sử dụng chuyên gia cân bằng, định tuyến hiệu quả và cải thiện hiệu suất mô hình, trong khi tránh các nhược điểm của tổn thất phụ trợ truyền thống.

Trích dẫn:
[1] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[2] https://www.linkedin.com/posts/sathiyakeerthi_how-deepseek-v3-picks-perfect-experts-activity-7287631625310412800-NCyV
[3] https://proceedings.neurips.cc/paper_files/paper/2024/file/1cded4f97cf5f01a284c574110b7e3b9-Paper-Conference.pdf
[4] https://www.linkedin.com/posts/josif-grabocka-7651b37_241219437v1-activity-7289784195130781696-Dm_V
[5] https://huggingface.co/deepseek-ai/DeepSeek-V3/blob/main/configuration_deepseek.py
[6] https://ai.gopubby.com/deepseek-v3-explained-2-deepseekmoe-106cffcc56c1
[7] https://gonzoml.substack.com/p/deepseek-v3-technical-details
[8] https://www.youtube.com/watch?v=8V2L6SJECW4
[9] https://rxiv.org/ai/
[10] https://fireworks.ai/blog/deepseek-model-architecture

Làm thế nào để điều chỉnh động của các thuật ngữ thiên vị bổ sung cho sigmoid gating trong Deepseek-v3

Điều chỉnh động của các điều khoản thiên vị

Sigmoid Gating

Mất phụ trợ theo trình tự bổ sung

Làm thế nào điều chỉnh độ lệch động và gating sigmoid bổ sung cho nhau