Giải mã đầu cơ là một kỹ thuật được sử dụng để tăng tốc tốc độ suy luận của các mô hình ngôn ngữ lớn như Deepseek-R1 bằng cách tận dụng một mô hình dự thảo nhỏ hơn để tạo ra các mã thông báo ứng cử viên song song. Cách tiếp cận này có thể giảm đáng kể độ trễ bằng cách cho phép mô hình tạo ra nhiều mã thông báo đồng thời, sau đó được xác minh bằng mô hình lớn hơn để đảm bảo độ chính xác. Tuy nhiên, trong khi giải mã đầu cơ thường cải thiện thông lượng, nó có thể giới thiệu sự thay đổi về độ trễ do quá trình xác minh.
Làm thế nào giải mã đầu cơ hoạt động
1. Tạo mã thông báo song song: Một mô hình dự thảo nhỏ hơn tạo ra nhiều mã thông báo ứng cử viên song song. Điều này nhanh hơn thế hệ tuần tự bởi mô hình lớn hơn vì nó sử dụng gia tốc GPU hiệu quả hơn [1] [3].
2. Quá trình xác minh: Mô hình lớn hơn xác minh các mã thông báo ứng cử viên này. Nếu chúng phù hợp với đầu ra dự kiến, chúng được chấp nhận; Mặt khác, chỉ có các mã thông báo không chính xác được tính toán lại [3] [9].
Tác động đến độ trễ
- Giảm độ trễ trung bình: Giải mã đầu cơ có thể làm giảm độ trễ trung bình bằng cách tạo mã thông báo nhanh hơn. Điều này là do mô hình dự thảo đòi hỏi ít tài nguyên hơn và có thể hoạt động nhanh hơn mô hình lớn hơn [3] [5].
- Độ trễ biến: Trong khi giải mã đầu cơ cải thiện thông lượng tổng thể, nó có thể dẫn đến độ trễ không nhất quán. Khi dự đoán của mô hình dự thảo không chính xác, mô hình lớn hơn phải tính toán lại, có thể gây ra các đột biến về độ trễ [3] [9].
Thông tin cụ thể của DeepSeek-R1
Deepseek-R1 kết hợp các cải tiến như dự đoán đa điểm (MTP) và giải mã đầu cơ được tối ưu hóa, giúp cải thiện hơn nữa tốc độ suy luận. MTP cho phép Deepseek-R1 dự đoán nhiều mã thông báo song song, giảm độ trễ giải mã mà không ảnh hưởng đến sự kết hợp [4]. Việc giải mã đầu cơ được tối ưu hóa trong DeepSeek-R1 sử dụng kiểm tra thỏa thuận xác suất, chấp nhận dự đoán dựa trên ngưỡng tin cậy thay vì khớp chính xác, giúp giảm tốc độ từ chối và tăng tốc suy luận [4].
Nhìn chung, giải mã đầu cơ có thể tăng cường đáng kể hiệu suất của DeepSeek-R1 bằng cách giảm độ trễ trung bình và cải thiện thông lượng, nhưng nó có thể đưa ra sự thay đổi về độ trễ do quá trình xác minh.
Trích dẫn:
[1] https://centml.ai/resources/2x-inference-speed-on-r1
[2] https://iaee.substack.com/p/deepseek-r1-intuitively-and-exhaustively
[3] https://www.theregister.com/2024/12/15/speculative_decoding/
[4] https://aman.ai/primers/ai/deepseek-r1/
[5] https://arxiv.org/html/2503.07807v1
.
[7] https://arxiv.org/html/2502.02789
[8] https://www.linkedin.com/posts/lamersrick_i-worked-on-this-speculative-decode-version-activity-7293321395000819712-8yvC
[9] https://predibase.com/blog/predibase.com/blog/deepseek-r1-self-distillation-turbo-speculation
.