Deepseek-R1'i AWS'de etkili bir şekilde çalıştırmak, belirli model varyantına ve istenen performansa göre doğru örnek türlerinin seçilmesini gerektirir. Farklı Deepseek-R1 modelleri için önerilen AWS örneklerine ayrıntılı bir genel bakış:
Deepseek-R1 (tam model)
671 milyar parametreye sahip tam Deepseek-R1 modeli önemli hesaplama kaynakları gerektirir. Optimal performans için, NVIDIA A100 GPU'ları kullanma gibi bir çoklu GPU kurulumu önerilir. Ancak AWS, standart EC2 örneklerinde doğrudan A100 GPU'lar sunmaz. Bunun yerine, benzer yüksek performanslı bilgi işlem ihtiyaçları için `` inf2.48xlarge '' gibi örnekleri kullanmayı düşünebilirsiniz, ancak bunlar Deepseek-R1 gibi büyük modelleri eğitmek yerine çıkarım hızlanması için daha uygundur [4].Deepseek-R1 damıtılmış modeller
Daha verimli ve daha az VRAM gerektiren Deepseek-R1'in damıtılmış versiyonları için farklı AWS örnekleri kullanılabilir:-Deepseek-R1-Distill-Qwen-1.5b: Bu model tek bir GPU örneğinde verimli bir şekilde çalıştırılabilir. Performans metrikleri nedeniyle bu modeli barındırmak için `ml.g5.xlarge` örneği önerilmektedir [3].
-Deepseek-R1-Distill-Qwen-7b ve Deepseek-R1-Distill-Llama-8b: Bu modeller, iyi bir GPU gücü ve maliyet dengesi sunan `ml.g6e.xlarge` gibi durumlarda iyi performans gösterir. `` Ml.g5.2xlarge` ve `ml.g5.xlarge 'örnekleri de uygulanabilir seçeneklerdir [3].
-Deepseek-R1-Distill-Qwen-14b: Bu model için, daha güçlü bir GPU'ya sahip bir örneğe ihtiyaç vardır. NVIDIA T4 GPU'ları içeren `g4dn.xlarge` örneği, VRAM sınırlamaları nedeniyle yeterli olmayabilir. Bunun yerine, `ml.g6` ailesindekiler gibi daha güçlü GPU'lara sahip örnekleri kullanmayı veya mevcutsa üst düzey GPU'lu özel bir kurulum seçmeyi düşünün [1] [2].
-Deepseek-R1-Distill-Qwen-32B ve Deepseek-R1-Distill-Llama-70b: Bu daha büyük modeller daha güçlü GPU'lar gerektirir. Optimal performans için, NVIDIA RTX 4090 gibi üst düzey GPU'lara sahip örnekler önerilir, ancak bu tür GPU'lar standart AWS EC2 örneklerinde doğrudan mevcut değildir. Ancak, yüksek performanslı çıkarım görevleri için `` inf2.48xlarge '' gibi örnekleri kullanabilirsiniz [4] [6].
CPU tabanlı dağıtım
Gecikmenin kritik bir faktör olmadığı toplu işleme görevleri için AWS Graviton4 tabanlı örnekler uygun maliyetli bir çözüm sunabilir. Yüksek çekirdek sayısı ve bellek bant genişliği ile `C8G.16xlarge` örneği, sadece CPU ortamında Deepseek-R1-Distill-Llama-70b gibi modelleri çalıştırmak için uygundur [6].Tamamen Yönetilen Çözümler
Altyapı yönetmemeyi tercih eden kullanıcılar için Deepseek-R1, Amazon Bedrock'ta tam olarak yönetilen bir sunucusuz model olarak da mevcuttur. Bu seçenek, altta yatan altyapı karmaşıklıklarından endişe etmeden modelin yeteneklerinden yararlanmanızı sağlar [9].Özetle, Deepseek-R1'i etkili bir şekilde çalıştırmak için AWS örneğinin seçimi, belirli model varyantına, gerekli performans seviyesine ve GPU hızlanmasının gerekli olup olmadığına bağlıdır. Çoğu damıtılmış model için, güçlü GPU'lara sahip örnekler önerilirken, CPU tabanlı örnekler parti işleme görevleri için uygun olabilir.
Alıntılar:
[1] https://community.aws/content/2seuhqlpyfswckzmx585jcksgn/deploying-deepseek-r1-14b-on-Aazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architecture--local-deployment-and-hardware-wequirements-3mf8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-disted-models-with-hging-face-tgi-
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-distill-llama-70b-for-fatch=en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-disted-models-on-amazon-sagemaker-usinga--large-model-inence-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3iH/HOW_TO_INSTALL_DEEPSEEK_WHE_MODELS_AND//
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-now-evailable-acle-ullisy-solleged-sverless-model-in-amazon-bedrock/