Att köra Deepseek-R1 effektivt på AWS kräver att du väljer rätt instansstyper baserat på den specifika modellvarianten och den önskade prestanda. Här är en detaljerad översikt över rekommenderade AWS-instanser för olika Deepseek-R1-modeller:
Deepseek-R1 (full modell)
Den fullständiga Deepseek-R1-modellen, med 671 miljarder parametrar, kräver betydande beräkningsresurser. För optimal prestanda rekommenderas en multi-GPU-installation, till exempel att använda NVIDIA A100 GPU. AWS erbjuder emellertid inte direkt A100 GPU: er i sina standard EC2 -instanser. Istället kan du överväga att använda instanser som `INF2.48xLarge` för liknande högpresterande datorbehov, även om dessa är mer lämpade för inferensacceleration snarare än att träna stora modeller som Deepseek-R1 [4].Deepseek-R1 destillerade modeller
För de destillerade versionerna av Deepseek-R1, som är mer effektiva och kräver mindre VRAM, kan olika AWS-instanser användas:-Deepseek-R1-Distill-Qwen-1.5B: Denna modell kan köras effektivt på en enda GPU-instans. "Ml.g5.xLarge` -instansen rekommenderas för att vara värd för denna modell på grund av dess prestationsmätningar [3].
-Deepseek-R1-Distill-Qwen-7B och Deepseek-R1-Distill-llama-8B: Dessa modeller fungerar bra på instanser som `ML.G6E.XLARGE`, som erbjuder en bra balans mellan GPU-kraft och kostnad. "Ml.g5.2xlarge` och` ml.g5.xlarge` -instanserna är också livskraftiga alternativ [3].
-Deepseek-R1-Distill-Qwen-14B: För denna modell behövs en instans med en mer kraftfull GPU. "G4dn.xLarge` -instansen, som har Nvidia T4 GPU: er, kanske inte är tillräckliga på grund av dess VRAM -begränsningar. Överväg istället att använda instanser med mer kraftfulla GPU: er som de i familjen "ML.G6" eller välja en anpassad installation med högre GPU: er om det är tillgängligt [1] [2].
-Deepseek-R1-Distill-Qwen-32B och Deepseek-R1-Distill-llama-70B: Dessa större modeller kräver ännu kraftfullare GPU: er. För optimal prestanda rekommenderas instanser med avancerade GPU: er som NVIDIA RTX 4090, även om sådana specifika GPU: er inte är direkt tillgängliga i standard AWS EC2-instanser. Du kan emellertid använda instanser som `INF2.48XLARGE` för högpresterande inferensuppgifter [4] [6].
CPU-baserad distribution
För batchbehandlingsuppgifter där latens inte är en kritisk faktor kan AWS Graviton4-baserade instanser erbjuda en kostnadseffektiv lösning. "C8g.16xLarge`-instansen, med sin höga kärnantal och minnesbandbredd, är lämplig för att köra modeller som Deepseek-R1-Distill-llama-70B i en CPU-miljö endast [6].Fullt hanterade lösningar
För användare som föredrar att inte hantera infrastruktur är Deepseek-R1 också tillgänglig som en helt hanterad serverlös modell i Amazon Bedrock. Det här alternativet gör att du kan utnyttja modellens kapacitet utan att oroa dig för underliggande infrastrukturkomplexitet [9].Sammanfattningsvis beror valet av AWS-instans för att köra Deepseek-R1 effektivt på den specifika modellvarianten, den nödvändiga prestationsnivån och om GPU-acceleration är nödvändig. För de flesta destillerade modeller rekommenderas instanser med kraftfulla GPU: er, medan CPU-baserade instanser kan vara lämpliga för batchbehandlingsuppgifter.
Citeringar:
]
]
]
[4] https://huggingface.co/blog/deepseek-r1-aws
]
]
[7] https://aws.amazon.com/blogs/machine-learning/deploy2
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
]