AWS에서 DeepSeek-R1을 효율적으로 실행하려면 특정 모델 변형 및 원하는 성능을 기반으로 올바른 인스턴스 유형을 선택해야합니다. 다음은 다양한 DeepSeek-R1 모델에 대한 권장 AWS 인스턴스에 대한 자세한 개요입니다.
DeepSeek-R1 (전체 모델)
6,710 억 개의 매개 변수를 보유한 전체 DeepSeek-R1 모델에는 상당한 계산 리소스가 필요합니다. 최적의 성능을 위해 NVIDIA A100 GPU 사용과 같은 멀티 GPU 설정이 권장됩니다. 그러나 AWS는 표준 EC2 인스턴스에서 A100 GPU를 직접 제공하지 않습니다. 대신, 유사한 고성능 컴퓨팅 요구에 대해`inf2.48xlarge`와 같은 인스턴스를 사용하는 것을 고려할 수 있지만, DeepSeek-R1과 같은 대규모 모델을 훈련시키는 대신 추론 가속에 더 적합합니다 [4].DeepSeek-R1 증류 모델
더 효율적이고 덜 VRAM이 필요한 DeepSeek-R1의 증류 버전의 경우 다른 AWS 인스턴스를 사용할 수 있습니다.-Deepseek-R1-Distill-Qwen-1.5B :이 모델은 단일 GPU 인스턴스에서 효율적으로 실행할 수 있습니다. 성능 메트릭으로 인해이 모델을 호스팅하는 데`ml.g5.xlarge '인스턴스가 권장됩니다 [3].
-Deepseek-R1-Distill-Qwen-7b 및 Deepseek-R1-Distill-Llama-8B :이 모델은`ml.g6e.xlarge`와 같은 인스턴스에서 잘 작동하며 GPU 전력과 비용의 균형을 제공합니다. `ml.g5.2xlarge` 및`ml.g5.xlarge '인스턴스도 실행 가능한 옵션입니다 [3].
-Deepseek-R1-Distill-Qwen-14B :이 모델의 경우보다 강력한 GPU가있는 인스턴스가 필요합니다. NVIDIA T4 GPU를 특징으로하는`g4dn.xlarge` 인스턴스는 VRAM 제한으로 인해 충분하지 않을 수 있습니다. 대신, 'ML.G6` 제품군과 같은 더 강력한 GPU가있는 인스턴스를 사용하거나 사용 가능한 경우 고급 GPU가있는 사용자 정의 설정을 선택하십시오 [1] [2].
-Deepseek-R1-Distill-Qwen-32b 및 Deepseek-R1-Distill-Llama-70B :이 큰 모델에는 더욱 강력한 GPU가 필요합니다. 최적의 성능을 위해 NVIDIA RTX 4090과 같은 고급 GPU가있는 인스턴스가 권장되지만 이러한 특정 GPU는 표준 AWS EC2 인스턴스에서 직접 사용할 수 없습니다. 그러나 고성능 추론 작업에`inf2.48xlarge`와 같은 인스턴스를 사용할 수 있습니다 [4] [6].
CPU 기반 배포
대기 시간이 중요한 요소가 아닌 배치 처리 작업의 경우 AWS Graviton4 기반 인스턴스는 비용 효율적인 솔루션을 제공 할 수 있습니다. 코어 수와 메모리 대역폭이 높은`C8G.16xlarge` 인스턴스는 CPU 전용 환경에서 DeepSeek-R1-Distill-Llama-70B와 같은 모델을 실행하는 데 적합합니다 [6].완전히 관리되는 솔루션
인프라를 관리하지 않는 사용자의 경우 DeepSeek-R1은 Amazon Bedrock에서 완전히 관리되는 서버리스 모델로도 제공됩니다. 이 옵션을 사용하면 기본 인프라 복잡성에 대해 걱정하지 않고 모델의 기능을 활용할 수 있습니다 [9].요약하면, DeepSeek-R1을 실행하기위한 AWS 인스턴스의 선택은 효율적으로 특정 모델 변형, 필요한 성능 수준 및 GPU 가속도가 필요한지 여부에 따라 다릅니다. 대부분의 증류 모델의 경우 강력한 GPU가있는 인스턴스가 권장되는 반면 CPU 기반 인스턴스는 배치 처리 작업에 적합 할 수 있습니다.
인용 :
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architecture-training-local-deployment-and-hardware-requirements-3mf8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-host-host-deepseek-distilled-models-with-hugging-face-tgi-amazon-sagemaker-ai/
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-r1-distill-llama-llama-for-batch-inference-on-aws-graviton4?lang=en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-now-available-as-a-ly-ly-ly-manging-serverless-model-in-amazon-bedrock/