Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Unified E4M3 형식은 DeepSeek-v3의 효율에 어떻게 기여합니까?


Unified E4M3 형식은 DeepSeek-v3의 효율에 어떻게 기여합니까?


DeepSeek-V3의 Unified E4M3 형식은 혼합 정화 훈련, 특히 동적 범위 및 정밀성과 관련된 몇 가지 과제를 해결함으로써 모델의 효율성에 크게 기여합니다. 다음은이 형식이 효율성을 향상시키는 방법에 대한 자세한 설명입니다.

미세한 양자화 전략

DeepSeek-V3은 세밀한 양자화 전략을 사용하여 모든 훈련 단계에서 E4M3 형식을 효과적으로 활용할 수 있습니다. 하이브리드 FP8 형식을 사용한 이전 프레임 워크 (예 : 순방향 패스의 경우 E4M3, 뒤로 패스의 경우 E5M2)와 달리 DeepSeek-V3의 접근 방식은 활성화가 1x128 타일 기준으로 그룹화되고 스케일링되는 반면, 무게는 128x128 블록으로 스케일링되도록합니다 [1] [2]. 이 세분성은 각 그룹의 스케일링 계수를 동적으로 조정하여 특이 치를 더 잘 처리하는 데 도움이되며, 이는 FP8 형식에 내재 된 제한된 동적 범위의 영향을 완화시킵니다 [3].

동적 스케일링 및 온라인 양자화

이 모델은 훈련 중 각 활성화 타일 또는 무게 차단에 대해 스케일링 요소가 동적으로 계산되는 온라인 양자화를 사용합니다. 이로 인해 역사적 최대 값을 유지하고 프레임 워크를 단순화하고 정확도를 향상시킬 필요가 없다 [1] [2]. 이러한 스케일링 계수를 동적으로 조정함으로써 DeepSeek-V3은 사용 가능한 FP8 숫자 표현 버킷의 사용을 최적화하여 대부분의 값이 좁은 범위에서 클러스터되지 않도록하여 더 작은 값에 대한 정밀도가 좋지 않습니다 [3].

메모리 사용 및 계산 비용을 줄였습니다

세밀한 양자화와 결합 된 통합 E4M3 형식은 메모리 사용량을 크게 줄입니다. DeepSeek-V3은 낮은 정밀 형식 (예 : 활성화를위한 FP8)으로 활성화 및 최적화 상태를 저장함으로써 대규모 모델에 중요합니다 [1] [5]. 또한 주요 계산에 FP8을 사용하면 FP16 또는 FP32와 같은 고정밀 형식에 비해 처리가 적을 필요가 없기 때문에 계산 비용이 줄어 듭니다 [5].

수치 안정성 향상

DeepSeek-V3는 또한 축적 동안 특정 간격으로 FP32 레지스터에 부분 결과를 촉진함으로써 FP8 훈련과 관련된 수치 정밀 손실 문제를 해결합니다. 이 전략은 텐서 코어의 제한된 비트 폭 축적으로 인한 오류를 완화시켜 수치 안정성과 안정적인 훈련을 보장합니다 [1] [7].

요약하면, DeepSeek-V3의 통합 E4M3 형식은 세밀한 양자화, 동적 스케일링, 메모리 사용 감소 및 개선 된 수치 안정성을 허용하여 효율성을 향상시킵니다. 이러한 혁신을 통해 DeepSeek-V3은 계산 리소스를 최적화하면서 최첨단 성능을 달성 할 수 있습니다.

인용 :
[1] https://community.aws/content/2rjj1wkztsfywvfsiibhwxeqmf1/four-unique-takeayways-from-deepseek-v3?lang=en
[2] https://research.meekolab.com/deepseeks-low-level-hardware-magic
[3] https://fireworks.ai/blog/deepseek-model-architecture
[4] https://dirox.com/post/deepseek-v3the-open-source-ai-revolution
[5] https://cciedump.spoto.net/newblog/overview-oview-oveepseek-v3:-latest-deepseek-technical-report.html
[6] https://adasci.org/deepseek-v3- 여기-aptimizing-efficiency-and-scale/
[7] https://www.linkedin.com/posts/danielhanchen_deepseek-v3-s-thos-powerful-open-source-activity-7278488573006200832-kta_-kta_
[8] https://www.reddit.com/r/localllama/comments/1hmmtt3/deepseek_v3_is_officially_released_code_paper/