DeepSeek thực hiện các biện pháp nào để ngăn chặn giảm mã thông báo trong quá trình đào tạo

Deepseek sử dụng một số chiến lược để ngăn chặn việc giảm mã thông báo trong quá trình đào tạo, đặc biệt là trong kiến trúc hỗn hợp (MOE) của nó. Đây là các biện pháp chính:

1. Chiến lược giảm mã thông báo: DeepSeek sử dụng phương pháp giảm token khôn ngoan dựa trên xác suất định tuyến, tương tự như các mô hình MOE thông thường. Điều này có nghĩa là các mã thông báo được giảm theo điểm số của chúng, đảm bảo rằng chỉ có các mã thông báo ít quan trọng nhất được loại bỏ khi số lượng mã thông báo vượt quá một công suất nhất định. Công suất được tính toán khác nhau tùy thuộc vào việc tập trung vào kích thước chuyên gia hoặc thiết bị, giúp quản lý các mã thông báo được xử lý bởi các chuyên gia hoặc thiết bị khác nhau một cách hiệu quả [1].

2. Dropping mã thông báo cấp thiết bị: Chiến lược chủ yếu hoạt động ở cấp thiết bị nơi tất cả các điểm số chuyên gia được sắp xếp và các mã thông báo có xác suất thấp nhất bị loại bỏ. Điều này đảm bảo rằng mỗi thiết bị có thể quản lý tải của nó mà không áp đảo bất kỳ chuyên gia nào trong khi vẫn duy trì hiệu suất hiệu suất tổng thể [1].

3. Điều này rất quan trọng để duy trì tính toàn vẹn của dữ liệu đào tạo và đảm bảo rằng thông tin quan trọng được lưu giữ trong suốt quá trình đào tạo [2] [6].

4. Cân bằng tải: Trong phiên bản mới nhất của mình, Deepseek-V3, một chiến lược cân bằng tải hiệu quả được sử dụng giúp loại bỏ sự cần thiết phải giảm token hoàn toàn trong quá trình đào tạo. Bằng cách tự động điều chỉnh tải chuyên gia và sử dụng mục tiêu dự đoán đa điểm, Deepseek-V3 duy trì phân phối cân bằng các mã thông báo trên các chuyên gia, do đó ngăn chặn mọi mất dữ liệu trong quá trình đào tạo [2].

Các biện pháp này phản ánh cam kết của Deepseek trong việc tối ưu hóa các quy trình đào tạo của mình trong khi giảm thiểu mất dữ liệu và tối đa hóa hiệu quả tính toán.

Trích dẫn:
[1] https://github.com/deepseek-ai/deepseek-v2/issues/5
[2] https://arxiv.org/html/2412.19437v1
.
[4] https://planetbanatt.net/articles/deepseek.html
[5] https://www.financemagnates.com/cryptocurrency/w.
[6] https://arxiv.org/html/2405.04434v5
[7] https://www.binance.com/square/post/19557042115937
[8] https://community.openai.com/t/will-deepseek-r1-force-openai-to-reduce-token-prices/1097716

|@.