在AWS上有效地运行DeepSeek-R1需要根据特定模型变体和所需的性能选择正确的实例类型。这是针对不同DeepSeek-R1模型推荐的AWS实例的详细概述:
deepseek-r1(完整型号)
具有6710亿参数的完整DeepSeek-R1模型需要大量的计算资源。为了获得最佳性能,建议使用多GPU设置,例如使用NVIDIA A100 GPU。但是,AWS在其标准EC2实例中并未直接提供A100 GPU。取而代之的是,您可以考虑使用``Inf2.48xlarge'之类的实例''用于类似的高性能计算需求,尽管这些实例更适合推理加速度,而不是训练诸如DeepSeek-R1之类的大型模型[4]。DeepSeek-R1蒸馏型
对于更有效且需要更少VRAM的DeepSeek-R1的蒸馏版本,可以使用不同的AWS实例:- DeepSeek-R1-Distill-Qwen-1.5b:该模型可以在单个GPU实例上有效运行。由于其性能指标,建议使用`ml.g5.xlarge`实例用于托管该模型[3]。
-DeepSeek-R1-Distill-Qwen-7b和DeepSeek-R1-Distill-Lalama-8B:这些模型在诸如`ml.g6e.xlarge`之类的实例上都表现良好,该实例可在GPU的功率和成本上保持良好的平衡。 `ml.g5.2xlarge'和`ml.g5.xlarge`实例也是可行的选项[3]。
-DeepSeek-R1-Distill-Qwen-14b:对于此模型,需要具有更强大GPU的实例。具有NVIDIA T4 GPU的“ G4DN.xlarge”实例由于其VRAM限制可能不够。取而代之的是,考虑使用具有更强大GPU的实例,例如“ ML.G6”家族中的gpu,或者选择具有更高端GPU的自定义设置[1] [2]。
-DeepSeek-R1-Distill-Qwen-32b和DeepSeek-R1-Distill-lalama-70b:这些较大的型号需要更强大的GPU。为了获得最佳性能,建议使用具有NVIDIA RTX 4090的高端GPU的实例,尽管这种特定的GPU在标准AWS EC2实例中并不直接可用。但是,您可以将诸如`iff2.48xlarge`之类的实例用于高性能推理任务[4] [6]。
###基于CPU的部署
对于延迟不是关键因素的批处理处理任务,基于AWS Graviton4的实例可以提供具有成本效益的解决方案。 ``C8G.16xlarge`实例及其较高的核心计数和内存带宽适合在仅CPU的环境中运行的模型,例如DeepSeek-R1-Distill-lalama-70B [6]。
###完全管理的解决方案
对于不愿管理基础架构的用户,DeepSeek-R1在亚马逊基岩中也可以作为完全管理的无服务器模型提供。此选项使您可以利用模型的功能,而不必担心基础架构复杂性[9]。
总而言之,用于运行DeepSeek-R1的AWS实例有效地取决于特定的模型变体,所需的性能水平以及GPU加速是否需要。对于大多数蒸馏模型,建议使用功能强大的GPU实例,而基于CPU的实例则适用于批处理处理任务。
引用:
[1] https://community.aws/content/2seuhqlpyswckzmx585jcksgksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architecture-training-local-deployment-and-hardware-requirements-3mf8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-hosting-deepseek-r1-dist--------------------
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirentess-poptimal-deployment-setup-2e48
[6] https://community.aws/content/2rhRJI6cxBa1Ib5f3TjsfPadpXs/deploying-deepseek-r1-distill-llama-70b-for-batch-inference-on-aws-graviton4?lang=en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distald-models-models-on-amazon-sagemaker-sagemaker-usis-using-a-rarge-a-a-large-model-inference-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_to_install_deepseek_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-now-available-as-a-a---man-man----- maremend-serverless-model-model-in-in-amazon-bedrock/