DeepSeek-V3에서 GEMM 운영에 대한 FP8의 이점

DeepSeek-V3에서 일반 매트릭스 곱셈 (GEMM) 작업에 FP8 (8 비트 부동 소수점)을 사용하면 주로 계산 효율성 및 메모리 절약 측면에서 몇 가지 중요한 이점이 있습니다. 자세한 장점은 다음과 같습니다.

1. 컴퓨팅 효율성 : FP8 작업은 기존 FP16 또는 FP32 작업에 비해 계산 속도가 상당히 증가합니다. 구체적으로, NVIDIA의 텐서 코어는 FP16의 두 배 속도로 FP8 GEMM 작업을 수행 할 수 있으며, 이는 DeepSeek-V3 [3] [4]와 같은 대규모 모델의 전체 교육 과정을 가속화합니다.

2. 메모리 절약 : FP8을 사용하면 BF16에 비해 메모리 요구 사항이 절반으로 줄어들어 동일한 하드웨어 제약 조건 내에서 더 크고 깊은 모델을 교육 할 수 있습니다. 이는 광범위한 메모리 리소스가 필요한 모델에 특히 도움이되므로 추가 하드웨어가 필요하지 않고보다 복잡한 모델을 개발할 수 있습니다 [3] [6].

3. 효율적인 통신 : 분산 교육 환경에서 FP8은 GPU 간의 데이터 전송에 필요한 대역폭을 줄여 동기화 효율성을 향상시키고 통신 오버 헤드를 줄입니다. 이것은 종종 분산 컴퓨팅 설정에 의존하는 대규모 AI 모델에 중요합니다 [3].

4. 세밀한 양자화 : DeepSeek-V3는 FP8의 제한된 동적 범위가 제기 한 문제를 해결하기 위해 세밀한 양자화 전략을 사용합니다. 여기에는 요소를 더 작은 타일 또는 블록으로 그룹화하고 독립적으로 스케일링하는 것이 포함되므로 특이 치를 더 잘 처리하고 수치 안정성을 유지하는 데 도움이됩니다 [1] [2].

5. 축적 정밀도 증가 : 텐서 코어에서 제한된 비트 폭이 축적되어 오류를 완화하기 위해 DeepSeek-V3는 축적 동안 특정 간격으로 FP32 레지스터로 부분 결과를 촉진합니다. 이는 FP8 GEMM 운영의 정밀도를 향상시켜 정확도를 손상시키지 않고 FP8의 이점이 실현되도록합니다 [1].

6. Unified E4M3 형식 : 하이브리드 FP8 형식을 사용한 이전 접근법과 달리 DeepSeek-V3은 E4M3 형식을 보편적으로 채택합니다. 이것은 세밀한 양자화 전략에 의해 촉진되며, 이는 그룹화 된 요소들 사이에 지수 비트를 효과적으로 공유하고 프레임 워크를 단순화하고 정확도를 향상시킨다 [1].

7. 온라인 양자화 : 모델은 훈련 중 각 활성화 타일 또는 중량 블록에 대해 스케일링 계수를 동적으로 계산하여 지연된 양자화 방법의 필요성을 제거합니다. 이것은 프레임 워크를 단순화하고 실시간 데이터 특성에 적응하여 정확도를 향상시킵니다 [1].

8. 최적화 된 라이브러리 지원 : 최적화 된 FP8 GEMM 라이브러리 인 DeepGemm의 개발은 DeepSeek-V3에서 FP8 작업의 효율성을 더욱 향상시킵니다. DeepGemm은 조밀 한 아키텍처와 MOE 아키텍처를 모두 지원하여 대규모 AI 모델에 중요한 효율적인 매트릭스 계산을 보장합니다 [4] [7]. 정밀도 손실을 최소화하면서 계산 효율성을 유지하기 위해 정시 (JIT) 컴파일 및 세밀한 스케일링을 사용합니다 [4] [5].

인용 :
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeayways-from-deepseek-v3?lang=en
[2] https://machinelearningatscale.substack.com/p/deepseek-v3-model
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://blog.aitoolhouse.com/deepseek-ai-releases-deepgemm-an-optimized-fp8-gemm-library-for-dense-and-computation/
[5] https://www.reddit.com/r/localllama/comments/1iybcnl/deepseek_realse_3th_bomb_deepgemm_a_library_for/
[6] https://arxiv.org/html/2503.09975v1
[7] https://digialps.com/deepseek-ai-drops-deepgemm-an-fp8-gemm-library-t that-powers-v3-r1-ai-models/
[8] https://arxiv.org/pdf/2412.19437.pdf
[9] https://www.aibase.com/news/15722

DeepSeek-V3에서 GEMM 작업에 FP8을 사용하면 어떤 이점이 있습니까?