Định dạng E4M3 thống nhất của DeepSeek-V3: Tăng cường hiệu quả mô hình

Định dạng E4M3 thống nhất trong DeepSeek-V3 đóng góp đáng kể vào hiệu quả của mô hình bằng cách giải quyết một số thách thức liên quan đến đào tạo chính xác hỗn hợp, đặc biệt là những thách thức liên quan đến phạm vi động và độ chính xác. Dưới đây là một lời giải thích chi tiết về cách định dạng này tăng cường hiệu quả:

Chiến lược lượng tử hóa hạt mịn

Deepseek-V3 sử dụng một chiến lược lượng tử hóa hạt mịn, cho phép nó sử dụng hiệu quả định dạng E4M3 trên tất cả các giai đoạn đào tạo. Không giống như các khung trước đó sử dụng các định dạng FP8 lai (ví dụ: E4M3 cho Pass Pass và E5M2 cho đường chuyền ngược), cách tiếp cận của DeepSeek-V3 đảm bảo rằng các kích hoạt được nhóm và chia tỷ lệ trên cơ sở gạch 1x128, trong khi trọng lượng được tỷ lệ trên cơ sở khối 128x128 [1. Độ chi tiết này giúp xử lý tốt hơn các ngoại lệ bằng cách điều chỉnh động các yếu tố tỷ lệ cho từng nhóm, điều này giảm thiểu tác động của phạm vi động hạn chế vốn có ở các định dạng FP8 [3].

Tỷ lệ động và định lượng trực tuyến

Mô hình sử dụng lượng tử hóa trực tuyến, trong đó các yếu tố tỷ lệ được tính toán động cho mỗi ô kích hoạt hoặc khối trọng lượng trong quá trình đào tạo. Điều này giúp loại bỏ nhu cầu duy trì các giá trị tối đa lịch sử, đơn giản hóa khung và cải thiện độ chính xác [1] [2]. Bằng cách tự động điều chỉnh các yếu tố tỷ lệ này, DeepSeek-V3 có thể tối ưu hóa việc sử dụng các thùng biểu diễn số FP8 có sẵn, đảm bảo rằng hầu hết các giá trị không được phân cụm trong phạm vi hẹp, điều này sẽ dẫn đến độ chính xác kém cho các giá trị nhỏ hơn [3].

Giảm sử dụng bộ nhớ và chi phí tính toán

Định dạng E4M3 thống nhất, kết hợp với lượng tử hóa hạt mịn, giảm đáng kể việc sử dụng bộ nhớ. Bằng cách lưu trữ các trạng thái kích hoạt và tối ưu hóa ở các định dạng chính xác thấp hơn (ví dụ: FP8 để kích hoạt), DeepSeek-V3 giảm thiểu các yêu cầu bộ nhớ, rất quan trọng đối với các mô hình quy mô lớn [1] [5]. Ngoài ra, việc sử dụng FP8 cho các tính toán chính làm giảm chi phí tính toán, vì nó yêu cầu ít dữ liệu được xử lý so với các định dạng có độ chính xác cao hơn như FP16 hoặc FP32 [5].

Tăng cường độ ổn định số

Deepseek-V3 cũng giải quyết vấn đề tổn thất chính xác về số lượng liên quan đến đào tạo FP8 bằng cách thúc đẩy kết quả một phần lên các thanh ghi FP32 trong các khoảng thời gian cụ thể trong quá trình tích lũy. Chiến lược này giảm thiểu các lỗi gây ra bởi sự tích lũy chiều rộng bit hạn chế trong lõi tenxơ, đảm bảo sự ổn định về số lượng và đào tạo đáng tin cậy [1] [7].

Tóm lại, định dạng E4M3 thống nhất trong DeepSeek-V3 giúp tăng cường hiệu quả bằng cách cho phép lượng tử hóa hạt mịn, tỷ lệ động, giảm sử dụng bộ nhớ và cải thiện độ ổn định số. Những đổi mới này cho phép DeepSeek-V3 đạt được hiệu suất tiên tiến trong khi tối ưu hóa các tài nguyên tính toán.

Trích dẫn:
[1] https://community.aws/content/2rJj1WkztSfYwVfsIibhWxeqMf1/four-unique-takeaways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3-the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-of-deepseek-v3:-latest-deepseek-technical-report.html
.
.
.

Làm thế nào để định dạng E4M3 thống nhất góp phần vào hiệu quả của DeepSeek-V3

Chiến lược lượng tử hóa hạt mịn

Tỷ lệ động và định lượng trực tuyến

Giảm sử dụng bộ nhớ và chi phí tính toán

Tăng cường độ ổn định số