Việc sử dụng FP8 (Điểm nổi 8 bit) cho các hoạt động nhân ma trận chung (GEMM) trong DeepSeek-V3 mang lại một số lợi ích đáng kể, chủ yếu về hiệu quả tính toán và tiết kiệm bộ nhớ. Dưới đây là những lợi thế chi tiết:
1. Hiệu quả tính toán: Các hoạt động FP8 cung cấp sự gia tăng đáng kể về tốc độ tính toán so với các hoạt động FP16 hoặc FP32 truyền thống. Cụ thể, các lõi tenor của NVIDIA có thể thực hiện các hoạt động của GEMM FP8 với tốc độ gấp đôi so với FP16, giúp tăng tốc quá trình đào tạo tổng thể của các mô hình quy mô lớn như Deepseek-V3 [3] [4].
2. Tiết kiệm bộ nhớ: Sử dụng FP8 giảm một nửa yêu cầu bộ nhớ so với BF16, cho phép các mô hình lớn hơn và sâu hơn được đào tạo trong cùng các ràng buộc phần cứng. Điều này đặc biệt có lợi cho các mô hình yêu cầu tài nguyên bộ nhớ rộng rãi, cho phép phát triển các mô hình phức tạp hơn mà không cần phần cứng bổ sung [3] [6].
3. Giao tiếp hiệu quả: Trong môi trường đào tạo phân tán, FP8 làm giảm băng thông cần thiết để truyền dữ liệu giữa GPU, giúp cải thiện hiệu quả đồng bộ hóa và giảm chi phí giao tiếp. Điều này rất quan trọng đối với các mô hình AI quy mô lớn thường dựa vào các thiết lập điện toán phân tán [3].
4. Lượng tử hóa hạt mịn: Deepseek-V3 sử dụng chiến lược lượng tử hóa hạt mịn để giải quyết các thách thức được đặt ra bởi phạm vi động hạn chế của FP8. Điều này liên quan đến việc nhóm các yếu tố thành các gạch hoặc khối nhỏ hơn và chia tỷ lệ chúng một cách độc lập, giúp xử lý tốt hơn các ngoại lệ và duy trì độ ổn định số [1] [2].
5. Tăng độ chính xác tích lũy: Để giảm thiểu các lỗi do sự tích lũy độ rộng bit hạn chế trong lõi tenxơ, DeepSeek-V3 thúc đẩy kết quả một phần cho các thanh ghi FP32 theo các khoảng thời gian cụ thể trong quá trình tích lũy. Điều này giúp tăng cường độ chính xác của các hoạt động GEMM FP8, đảm bảo rằng lợi ích của FP8 được thực hiện mà không ảnh hưởng đến độ chính xác [1].
6. Định dạng E4M3 thống nhất: Không giống như các phương pháp trước đây sử dụng các định dạng FP8 lai, DeepSeek-V3 áp dụng định dạng E4M3 trên toàn cầu. Điều này được tạo điều kiện bởi chiến lược lượng tử hóa hạt mịn của nó, chia sẻ hiệu quả các bit số mũ giữa các yếu tố được nhóm, đơn giản hóa khung và cải thiện độ chính xác [1].
7. Lượng tử trực tuyến: Mô hình tính toán các yếu tố mở rộng một cách linh hoạt cho mỗi ô kích hoạt hoặc khối trọng lượng trong quá trình đào tạo, loại bỏ sự cần thiết của các phương pháp lượng tử hóa bị trì hoãn. Điều này đơn giản hóa khung và cải thiện độ chính xác bằng cách thích ứng với các đặc điểm dữ liệu thời gian thực [1].
8. Hỗ trợ thư viện được tối ưu hóa: Sự phát triển của DeepGemm, thư viện GEMM FP8 được tối ưu hóa, tăng cường hơn nữa hiệu quả của các hoạt động FP8 trong DeepSeek-V3. DeepGEMM hỗ trợ cả kiến trúc dày đặc và MOE, đảm bảo các tính toán ma trận hiệu quả rất quan trọng đối với các mô hình AI quy mô lớn [4] [7]. Nó sử dụng tổng hợp trong thời gian (JIT) và tỷ lệ hạt mịn để duy trì hiệu quả tính toán trong khi giảm thiểu tổn thất chính xác [4] [5].
Trích dẫn:
[1] https://community.aws/content/2rJj1WkztSfYwVfsIibhWxeqMf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
.
.
[6] https://arxiv.org/html/2503.09975v1
.
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722