Å kjøre DeepSeek-R1 effektivt på AWS krever å velge riktige forekomsttyper basert på den spesifikke modellvarianten og ønsket ytelse. Her er en detaljert oversikt over anbefalte AWS-forekomster for forskjellige DeepSeek-R1-modeller:
DeepSeek-R1 (full modell)
Den komplette DeepSeek-R1-modellen, med 671 milliarder parametere, krever betydelige beregningsressurser. For optimal ytelse anbefales et multi-GPU-oppsett, for eksempel å bruke Nvidia A100 GPUer. AWS tilbyr imidlertid ikke direkte A100 GPUer i sine standard EC2 -forekomster. I stedet kan du vurdere å bruke forekomster som `INF2.48xLarge` for lignende høyytelsesbehandlingsbehov, selv om disse er mer egnet for inferensakselerasjon i stedet for å trene store modeller som DeepSeek-R1 [4].DeepSeek-R1 Destillerte modeller
For destillerte versjoner av DeepSeek-R1, som er mer effektive og krever mindre VRAM, kan forskjellige AWS-forekomster brukes:-DeepSeek-R1-Distill-Qwen-1.5b: Denne modellen kan kjøres effektivt på en enkelt GPU-forekomst. Forekomsten av `ML.G5.xLarge` anbefales for å være vert for denne modellen på grunn av resultatmålingene [3].
-DeepSeek-R1-Distill-Qwen-7b og DeepSeek-R1-Distill-lama-8b: Disse modellene presterer godt i forekomster som `ml.g6e.xlarge`, som gir en god balanse mellom GPU-kraft og kostnader. `ML.G5.2xLarge` og` ML.G5.xLarge` -forekomstene er også levedyktige alternativer [3].
-DeepSeek-R1-Distill-Qwen-14B: For denne modellen er det nødvendig med en forekomst med en kraftigere GPU. Forekomsten av `g4dn.xlarge`, som har NVIDIA T4 GPUer, er kanskje ikke tilstrekkelig på grunn av dens VRAM -begrensninger. I stedet kan du vurdere å bruke forekomster med kraftigere GPU-er som de i `ML.G6`-familien eller velge et tilpasset oppsett med GPU-ene med høyere ende hvis tilgjengelig [1] [2].
-DeepSeek-R1-Distill-Qwen-32B og DeepSeek-R1-Distill-lama-70b: Disse større modellene krever enda kraftigere GPU-er. For optimal ytelse anbefales forekomster med high-end GPUer som NVIDIA RTX 4090, selv om slike spesifikke GPU-er ikke er direkte tilgjengelige i standard AWS EC2-forekomster. Imidlertid kan du bruke forekomster som `INF2.48xLarge` for høy ytelse inferanseoppgaver [4] [6].
CPU-basert distribusjon
For batchbehandlingsoppgaver der latens ikke er en kritisk faktor, kan AWS Graviton4-baserte forekomster tilby en kostnadseffektiv løsning. Forekomsten av `C8g.16xLarge`, med sin høye kjernetall og minnebåndbredden, er egnet for å kjøre modeller som DeepSeek-R1-Distill-lama-70b i et kun CPU-miljø [6].Helt administrerte løsninger
For brukere som foretrekker å ikke administrere infrastruktur, er DeepSeek-R1 også tilgjengelig som en fullt administrert serverløs modell i Amazon-berggrunnen. Dette alternativet lar deg utnytte modellens evner uten å bekymre deg for underliggende infrastrukturkompleksiteter [9].Oppsummert avhenger valget av AWS-forekomst for å kjøre DeepSeek-R1 effektivt av den spesifikke modellvarianten, det nødvendige ytelsesnivået og om GPU-akselerasjon er nødvendig. For de fleste destillerte modeller anbefales forekomster med kraftige GPU-er, mens CPU-baserte forekomster kan være egnet for batchbehandlingsoppgaver.
Sitasjoner:
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deploying-edseek-r1-14b-on-azon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-arkitecture-training-local deployment-andware-requirements-3mf8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-slosting-depseek-r1-distilled-models-with-hugging- face-tgi-on-azon-sagemaker-ai/
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-irquirements-optimal-deployment-setup-2e48
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-edseek-r1-distill-lama-70b-for-batch-inferen-on-aws-gravon4?lang=en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-azon-sagemaker-desing-a-en-large-model-inferens-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-now-available-as-a-fyly-styred-serverless-model-in-azon-bedrock/