AWSでDeepSeek-R1を効率的に実行するには、特定のモデルバリアントと目的のパフォーマンスに基づいて適切なインスタンスタイプを選択する必要があります。さまざまなDeepSeek-R1モデルの推奨AWSインスタンスの詳細な概要を次に示します。
deepseek-r1(フルモデル)
6710億パラメーターを備えた完全なDeepSeek-R1モデルには、実質的な計算リソースが必要です。最適なパフォーマンスには、NVIDIA A100 GPUの使用など、マルチGPUセットアップが推奨されます。ただし、AWSは標準のEC2インスタンスでA100 GPUを直接提供していません。代わりに、同様の高性能コンピューティングニーズに「inf2.48xlarge」のようなインスタンスを使用することを検討できますが、これらはdeepseek-r1などの大規模なモデルをトレーニングするよりも推論加速により適しています[4]。deepseek-r1蒸留モデル
より効率的で、より少ないVRAMを必要とするDeepSeek-R1の蒸留バージョンの場合、異なるAWSインスタンスを使用できます。-deepseek-r1-distill-qwen-1.5b:このモデルは、単一のGPUインスタンスで効率的に実行できます。パフォーマンスメトリックのため、このモデルをホストするためには、「ml.G5.XLARGE」インスタンスが推奨されます[3]。
-deepseek-r1-distill-qwen-7bおよびdeepseek-r1-distill-llama-8b:これらのモデルは、GPUのパワーとコストのバランスをとる「ml.g6e.xlarge」のようなインスタンスでうまく機能します。 `ml.g5.2xlarge`および` ml.g5.xlarge`インスタンスも実行可能なオプションです[3]。
-deepseek-r1-distill-qwen-14b:このモデルには、より強力なGPUを備えたインスタンスが必要です。 NVIDIA T4 GPUを特徴とする `g4dn.xlarge`インスタンスは、VRAMの制限のために十分ではない可能性があります。代わりに、 `ml.g6`ファミリのようなより強力なGPUを持つインスタンスを使用するか、利用可能な場合はハイエンドGPUを使用してカスタムセットアップを選択することを検討してください[1] [2]。
-deepseek-r1-distill-qwen-32bおよびdeepseek-r1-distill-llama-70b:これらのより大きなモデルには、さらに強力なGPUが必要です。最適なパフォーマンスのために、NVIDIA RTX 4090のようなハイエンドGPUを備えたインスタンスが推奨されますが、このような特定のGPUは標準AWS EC2インスタンスでは直接利用できません。ただし、高性能推論タスクには「inf2.48xlarge」などのインスタンスを使用できます[4] [6]。
CPUベースの展開
遅延が重要な要素ではないバッチ処理タスクの場合、AWS Graviton4ベースのインスタンスは費用対効果の高いソリューションを提供できます。コアカウントとメモリ帯域幅が高い「C8G.16XLARGE」インスタンスは、CPUのみの環境でDeepSeek-R1-Distill-Lalama-70Bなどのモデルを実行するのに適しています[6]。###完全に管理されたソリューション
インフラストラクチャを管理したくないユーザー向けに、DeepSeek-R1はAmazon Bedrockで完全に管理されたサーバーレスモデルとしても利用できます。このオプションにより、基礎となるインフラストラクチャの複雑さを心配することなく、モデルの機能を活用できます[9]。
要約すると、DeepSeek-R1を効率的に実行するためのAWSインスタンスの選択は、特定のモデルバリアント、必要なパフォーマンスレベル、およびGPU加速度が必要かどうかに依存します。ほとんどの蒸留モデルでは、強力なGPUを使用したインスタンスが推奨されますが、CPUベースのインスタンスはバッチ処理タスクに適しています。
引用:
[1] https://community.aws/content/2seuhqlpyifwswswckzmx585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architecture-training-local-deployment-and-hardware-requirements-3mf8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distill-modelsとhugging-face-tgi-on-amazon-sagemaker-ai/
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48
[6] https://community.aws/content/2rhji6cba1ib55f3tjsfpadpxs/deploying-deepseek-r1-distill-llama-70b-for-batch-inference-on-aws-graviton4?lang = en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distill-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-now-asas-as-as- fuly-managed-serverless-model-in-amazon-bedrock/