DeepSeek-V3의 FP8 정밀도 : AI 교육의 효율성 향상 및 비용 절감

FP8 정밀도는 DeepSeek-V3의 교육 과정에서 중요한 역할을하며 효율성을 크게 향상시키고 계산 비용을 줄입니다. 다음은 그 역할에 대한 자세한 설명입니다.

FP8 정밀도 소개

FP8은 기존의 16 비트 또는 32 비트 형식에 비해보다 컴팩트 한 표현을 제공하는 8 비트 부동 소수점 형식입니다. 이 소형은 메모리 사용량을 줄이고 계산이 더 빠른 결과를 초래하여 DeepSeek-V3 [3] [5]와 같은 대규모 AI 모델 교육에 이상적입니다.

혼합 정밀 프레임 워크

DeepSeek-V3은 모델의 다른 부분이 다른 수준의 정밀도를 사용하는 혼합 정밀 프레임 워크를 사용합니다. GEMM (General Matrix Multiplication)과 같은 대부분의 컴퓨팅 집약적 인 작업은 속도 및 메모리 사용을 최적화하기 위해 FP8에서 수행됩니다. 그러나 임베딩 모듈, 출력 헤드, MOE 게이팅 모듈, 정규화 연산자 및주의 연산자와 같이 더 높은 정밀도가 필요한 특정 작업은 정확도를 유지하기 위해 더 높은 정밀 형식 (FP16 또는 FP32)으로 유지됩니다 [1] [5].

미세한 양자화

FP8의 제한된 동적 범위의 과제를 해결하기 위해 DeepSeek-V3는 세밀한 양자화 전략을 도입합니다. 여기에는 활성화가 1x128 타일로 그룹화되고 무게를 128x128 블록으로 그룹화하는 것이 포함되며, 각각 독립적으로 스케일링됩니다. 이 접근법은 전체 텐서를 왜곡하여 양자화 오류를 줄이고 모델 정확도를 유지함으로써 극단적 인 값을 방지합니다 [1] [5].

온라인 양자화

DeepSeek-V3는 온라인 양자화를 사용합니다. 여기서 스케일링 요소는 훈련 중 각 활성화 타일 또는 무게 차단에 대해 동적으로 계산됩니다. 이는 과거의 최대 값에 의존하고 프레임 워크를 단순화하며 정확도를 향상시키는 지연 양자화 방법의 필요성을 제거합니다 [1] [5].

축적 정밀도 증가

텐서 코어에서 FP8의 제한된 축적 정밀도로 인한 오류를 완화하기 위해 DeepSeek-V3는 GEMM 작업 중에 특정 간격으로 FP32 레지스터로 부분 결과를 촉진합니다. 이를 통해 작은 오류의 축적이 최소화되어 모델의 전반적인 정확도를 유지합니다 [1] [5].

Unified E4M3 형식

하이브리드 FP8 형식을 사용한 이전 프레임 워크와 달리 (예 : 순방향 패스의 경우 E4M3, 후진 패스의 경우 E5M2) DeepSeek-V3은 E4M3 형식을 보편적으로 채택합니다. 이것은 세밀한 양자화 전략에 의해 가능해졌으며, 이는 그룹화 된 요소들 사이에 지수 비트를 효과적으로 공유하여 모든 계산에 걸쳐 정밀도를 유지한다 [1] [5].

교육 효율성에 미치는 영향

FP8 정밀도의 사용은 DeepSeek-V3의 훈련 과정을 상당히 가속화합니다. 이 모델은 약 2 개월 만에 2048 GPU의 데이터 센터를 사용하여 교육을 받았으며, 사전 훈련의 경우 2664 백만 H800 GPU 시간과 후속 단계의 경우 추가 0.1 백만 GPU 시간이 필요했습니다. 이 효율은 메모리 소비 감소와 FP8이 제공하는 계산 속도 증가에 기인한다 [3] [6].

요약하면, DeepSeek-V3의 FP8 정밀도는 모델 정확도를 유지하면서 높은 교육 효율성을 달성하는 데 중요합니다. FP8의 한계를 완화하기 위해 세밀한 양자화 및 온라인 양자화를 활용하여 혼합 정밀 프레임 워크에 신중하게 통합됩니다.

인용 :
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeayways-from-deepseek-v3?lang=en
[2] https://arxiv.org/pdf/2412.19437.pdf
[3] https://dirox.com/post/deepseek-v3the-open-source-ai-revolution
[4] https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-les-nless-and-scrippled-hardware/
[5] https://www.linkedin.com/pulse/deepseek-v3s-key-innovations-8-bit-floating-pp8-qi-e3dgf
[6] https://huggingface.co/deepseek-ai/deepseek-v3
[7] https://martinfowler.com/articles/deepseek-papers.html
[8] https://research.colfax-intl.com/deepseek-r1-and-fp8-mixed-precision-training/

DeepSeek-V3의 훈련 과정에서 FP8 정밀도의 역할을 설명해 주시겠습니까?