AWS에 DeepSeek-R1을 배포하려면 큰 크기 및 계산 요구로 인해 상당한 GPU 리소스가 필요합니다. 다음은 AWS에 DeepSeek-R1 모델을 배포하기위한 특정 GPU 요구 사항 및 고려 사항은 다음과 같습니다.
1. 모델 크기 및 VRAM 요구 사항 : 전체 DeepSeek-R1 모델에는 6,710 억 개의 매개 변수가있어 상당한 VRAM이 필요합니다. 기본 FP8 지원의 경우 VRAM 요구 사항은 약 700GB입니다. 그러나 모델이 BF16 (NVIDIA A100과 같은 GPU에 의해 지원됨)으로 변환되면 VRAM 요구 사항은 더 높은 정밀 형식으로 인해 약 1.4TB로 증가합니다 [2] [4].
2. 권장 GPU 구성 : 전체 DeepSeek-R1 모델의 경우 멀티 GPU 설정이 필요합니다. NVIDIA A100 GPU가 장착 된`P4D.24XLARGE` 또는`P5.24XLARGE`와 같은 AWS 인스턴스가 적합합니다. 이 인스턴스는 대규모 모델에 필요한 VRAM 및 컴퓨팅 전력을 제공합니다. BF16 계산의 경우 16 개의 NVIDIA A100 GPU (각각 80GB의 VRAM이있는)가있는 설정이 권장됩니다 [1] [2].
3. AWS 인스턴스 옵션 : AWS는`p4d.24xlarge` 및`p5.24xlarge`를 포함하여 DeepSeek-R1 모델의 배포를 지원할 수있는 몇 가지 인스턴스를 제공합니다. 이러한 인스턴스는 NVIDIA A100 GPU와 함께 고성능 컴퓨팅 기능을 제공하며, 이는 DeepSeek-R1과 같은 대규모 AI 모델에 이상적입니다 [7].
4. 양자화 및 분산 컴퓨팅 : VRAM 요구 사항을 줄이고 효율성을 향상시키기 위해 양자화 기술을 적용 할 수 있습니다. 예를 들어, 4 비트 양자화를 사용하면 VRAM 요구가 크게 줄어들어 GPU가 줄어 듭니다. 또한 분산 컴퓨팅 프레임 워크를 사용하여 여러 인스턴스에 걸쳐 워크로드를 전파하여 확장 성과 성능을 향상시킬 수 있습니다 [4].
5. 컴퓨팅 및 메모리 요구 사항 : GPU 요구 사항을 넘어 DeepSeek-R1을 배포하려면 충분한 CPU 메모리 및 전체 시스템 리소스가 필요합니다. `G6E.4xlarge`와 같은 충분한 CPU 메모리가있는 AWS 인스턴스는 이러한 모델의 추가 계산 요구를 지원할 수 있습니다 [6].
요약하면, AWS에 DeepSeek-R1을 배포하려면 강력한 GPU 설정, 바람직하게는 NVIDIA A100 GPU를 사용하고 잠재적으로 양자화 및 분산 컴퓨팅을 활용하여 리소스 활용을 최적화합니다.
인용 :
[1] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48
[2] https://www.theriseunion.com/en/blog/deepseek-v3-r1-671b-gpu-requirements.html
[3] https://www.byteplus.com/en/topic/385683
[4] https://apxml.com/posts/gpu-requirements-deepseek-r1
[5] https://www.youtube.com/watch?v=5RHPZGDogle
[6] https://community.databricks.com/t5/machine-learning/understanding-compute-requirements-for-deploying-deepseek-r1/td-p/109187
[7] https://aws.amazon.com/blogs/aws/deepseek-r1-models-now-available-oaws/
[8] https://www.reddit.com/r/ollama/comments/1ifa93h/deepseek_r1_hardware_requirements_explained/