Tối ưu hóa hiệu quả bộ nhớ với sự chú ý tiềm ẩn đa đầu trong DeepSeek-V3

MLA tinh tế đóng vai trò gì trong việc quản lý tăng trưởng bộ nhớ trong DeepSeek-V3

Cơ chế chú ý đa đầu (MLA) tinh chế trong DeepSeek-V3 đóng một vai trò quan trọng trong việc quản lý tăng trưởng bộ nhớ bằng cách giảm đáng kể các yêu cầu bộ nhớ trong quá trình suy luận của mô hình. Đây là cách nó đóng góp cho hiệu quả bộ nhớ:

1. Phép chiếu thứ hạng thấp động: MLA điều chỉnh việc nén các vectơ khóa/giá trị dựa trên độ dài trình tự. Đối với các chuỗi ngắn hơn, ít nén hơn được áp dụng để bảo tồn độ trung thực, trong khi đối với các chuỗi dài hơn (mã thông báo lên tới 128k), nén sâu hơn được sử dụng để quản lý tăng trưởng bộ nhớ. Cách tiếp cận thích ứng này đảm bảo rằng việc sử dụng bộ nhớ vẫn có thể quản lý được ngay cả với các chuỗi đầu vào rất dài [2] [3].

2. Nén truy vấn thích ứng: Không giống như Deepseek-V2, sử dụng kích thước cố định để nén truy vấn, DeepSeek-V3 sử dụng tỷ lệ thích ứng của các truy vấn ở các độ sâu lớp khác nhau. Các lớp ban đầu sử dụng các truy vấn chiều cao hơn để thể hiện tốt hơn, trong khi các lớp sâu hơn nén mạnh hơn các truy vấn để lưu bộ nhớ kích hoạt. Chiến lược này tối ưu hóa việc sử dụng bộ nhớ bằng cách cân bằng tính biểu cảm với hiệu quả [2] [3].

3. Xử lý sợi dây được cải thiện: DeepSeek-V3 mở rộng khái niệm về các khóa tách rời, được thực hiện một phần trong V2. Bằng cách theo dõi một "khóa chia sẻ được tách rời", mô hình giảm độ trôi số trong các thế hệ dài, đảm bảo hiệu suất ổn định trên các chuỗi mở rộng [2].

4. Lưu trữ chung KV: Không giống như V2, được lưu trữ riêng các khóa và giá trị nén, V3 hợp nhất chúng thành một biểu diễn nén chung. Điều này làm giảm lưu lượng bộ nhớ trong suy luận đa nút, tăng cường hơn nữa hiệu quả bộ nhớ [2].

5. Bộ đệm thích ứng của lớp: Thay vì lưu trữ tất cả các mã thông báo quá khứ cho tất cả các lớp, V3 cắt tỉa các mục KV cũ hơn ở các lớp sâu hơn. Điều này giúp duy trì việc sử dụng bộ nhớ trong các giới hạn có thể quản lý khi xử lý các cửa sổ bối cảnh lớn [2].

Bằng cách thực hiện các sàng lọc này, MLA làm giảm đáng kể dấu chân bộ nhớ của DeepSeek-V3, khiến nó có khả năng xử lý các chuỗi dài một cách hiệu quả mà không ảnh hưởng đến hiệu suất. Điều này đạt được bằng cách nén các cặp giá trị khóa vào các vectơ tiềm ẩn, giúp giảm lượng dữ liệu cần được lưu trữ và xử lý, do đó tăng tốc suy luận và tăng cường khả năng ứng dụng thời gian thực [3] [5] [8].

Trích dẫn:
.
[2] https://martinfowler.com/articles/deepseek-papers.html
[3] https://mlnotes.substack.com/p/the-valleys-going-crazy-how-deepseek
[4] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[5] https://ai.plainenglish.io/deepseek-v3-how-they-achieved-big-results-with-small-compute-fb694606d59a
[6] https://www.byteplus.com/en/topic/382517
.
.