DeepSeek-V3는 FP8 혼합 정밀 훈련을 사용하여 특히 효율성, 속도 및 메모리 활용 측면에서 성능을 크게 향상시킵니다. 이 접근법은 8 비트 플로팅 포인트 숫자를 사용하여 FP16 정밀도에 비해 요건을 거의 절반으로 줄이는 메모리 소비가 크게 줄어 듭니다. 결과적으로, DeepSeek는 훈련 중에 높은 수준의 정확도를 유지하면서 더 적은 수의 GPU에서 효과적으로 작동 할 수 있습니다 [1] [4] [9].
FP8 혼합 정밀 훈련의 주요 영향
1. 효율성 증가 : FP8 정밀도를 활용하여 DeepSeek-V3은 놀라운 훈련 효율을 달성합니다. 이 모델의 사전 훈련 단계는 약 2.788 백만 GPU 시간 만 필요했으며, 비슷한 모델보다 약 5 억 5,76 백만 달러의 비용으로 상당히 낮습니다 [2] [7] [9].
2. 가속화 된 처리 속도 : FP8의 채택은 처리 해야하는 데이터 크기를 줄임으로써 더 빠른 계산을 가능하게합니다. 이 가속도는 듀얼 파이프 알고리즘에 의해 더 보완되며, 이는 계산 및 통신 단계를 겹쳐서 파이프 라인 병렬 처리를 최적화하여 GPU의 유휴 시간을 최소화합니다 [1] [3] [7].
3. 확장 성 : Memory Footprint 감소를 통해 DeepSeek-V3은 추가 계산 비용이 발생하지 않고 더 큰 데이터 세트와보다 광범위한 모델 아키텍처를 처리 할 수 있습니다. 이러한 확장 성은 방대한 양의 데이터를 효율적으로 처리 해야하는 고급 언어 모델을 개발하는 데 중요합니다 [1] [4].
4. 개선 된 모델 성능 : FP8 혼합 정밀 훈련의 통합은 모델 정확도를 손상시키지 않습니다. 대신, 다중 토큰 예측 (MTP)과 같은 기술을 통해 일관되고 문맥 상 관련 출력을 생성하는 모델의 능력을 향상시켜 여러 토큰을 동시에 예상하도록 모델을 훈련시킵니다 [1] [3] [9]. 이 기능은 특히 복잡한 언어 작업 및 다단계 추론에 유리합니다.
요약하면, FP8 혼합 정밀 훈련은 DeepSeek-V3의 아키텍처의 초석으로 AI 개발의 다양한 응용 분야에서 정확성과 확장 성을 유지하면서 자원 요구 사항을 줄이면 고성능을 달성 할 수 있습니다.
인용 :[1] https://ithy.com/article/deepseek-v3-progress-monguage-models-huyq64wk
[2] https://opentools.ai/news/deepseeks-breakthrough-a-new-for-ai-with-less-compute-power
[3] https://arxiv.org/html/2412.19437v1
[4] https://www.linkedin.com/pulse/deepseek-revolutizing-ai-open-source-reasoning-20-ramachandran-xakme
[5] https://huggingface.co/deepseek-ai/deepseek-v3
[6] https://arxiv.org/pdf/2412.19437.pdf
[7] https://adasci.org/deepseek-v3- 여기에서-옵션-효율성-스케일/
[8] https://stratechery.com/2025/deepseek-faq/
[9] https://guptadeepak.com/deepseek-revolutizing-si-with-efficiency-innovation-and-affordability/
[10] https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html