Optimalizace nasazení DeepSeek-R1 na AWS: Doporučení instance a průvodce nastavením

Spuštění DeepSeek-R1 efektivně na AWS vyžaduje výběr správných typů instancí na základě varianty konkrétní modely a požadovaného výkonu. Zde je podrobný přehled doporučených instancí AWS pro různé modely DeepSeek-R1:

DeepSeek-R1 (celý model)

Úplný model DeepSeek-R1 s 671 miliardami parametrů vyžaduje značné výpočetní zdroje. Pro optimální výkon se doporučuje nastavení multi-GPU, například použití GPU NVIDIA A100. AWS však ve svých standardních instancích EC2 přímo nenabízí GPU A100 GPU. Místo toho můžete zvážit použití instancí jako `inf2.48xlarge` pro podobné vysoce výkonné výpočetní potřeby, i když jsou vhodnější pro zrychlení inference spíše než trénink velkých modelů, jako je DeepSeek-R1 [4].

DeepSeek-R1 Destilované modely

Pro destilované verze DeepSeek-R1, které jsou efektivnější a vyžadují méně VRAM, lze použít různé instance AWS:

-DeepSeek-R1-DISTILL-QWEN-1.5B: Tento model může být efektivně spuštěn v jediné instanci GPU. Instance `ML.G5.XLARGE` se doporučuje pro hostování tohoto modelu kvůli jeho metrikám výkonnosti [3].

-DeepSeek-R1-Distill-QWEN-7B a DeepSeek-R1-Distill-LLAMA-8B: Tyto modely fungují dobře v instancích, jako je `ML.G6E.XLARGE`, která nabízí dobrou rovnováhu v energii a nákladech GPU. Životní možnosti `ML.G5.2xlarge` a` ML.G5.XLARGE` [3].

-DeepSeek-R1-Distill-QWEN-14B: Pro tento model je potřeba instance s výkonnějším GPU. Příklad `g4dn.xlarge`, která obsahuje GPU Nvidia T4, nemusí stačit kvůli jeho omezením VRAM. Místo toho zvažte použití instancí s výkonnějšími GPU, jako jsou případy v rodině „ML.G6“ nebo se rozhodněte pro vlastní nastavení s vyššími gpus, pokud jsou k dispozici [1] [2].

-DeepSeek-R1-Distill-QWEN-32B a DeepSeek-R1-Distill-Llama-70B: Tyto větší modely vyžadují ještě silnější GPU. Pro optimální výkon se doporučují instance s špičkovými GPU, jako je NVIDIA RTX 4090, ačkoli takové specifické GPU nejsou přímo k dispozici ve standardních instancích AWS EC2. Pro vysoce výkonné inferenční úkoly však můžete použít instance jako `inf2.48xlarge` [4] [6].

nasazení založené na CPU

Pro úkoly zpracování dávek, kde latence není kritickým faktorem, mohou instance založené na AWS Graviton4 nabídnout nákladově efektivní řešení. Příklad `C8G.16XLARGE` s vysokým počtem jádra a šířkou pásma paměti je vhodný pro spuštění modelů, jako je DeepSeek-R1-Distill-Llama-70B v prostředí pouze pro CPU [6].

Plně spravovaná řešení

Pro uživatele, kteří raději nepravují infrastrukturu, je DeepSeek-R1 k dispozici také jako plně spravovaný model bez serveru v Amazon Bedrock. Tato možnost umožňuje využít schopnosti modelu bez obav o základní složitost infrastruktury [9].

Stručně řečeno, výběr příkladu AWS pro spuštění DeepSeek-R1 efektivně závisí na variantě specifické modelu, požadované úrovni výkonu a na tom, zda je nezbytné zrychlení GPU. U většiny destilovaných modelů se doporučují instance s výkonným GPU, zatímco instance založené na CPU mohou být vhodné pro úkoly zpracování dávek.

Citace:
[1] https://community.aws/content/2seuhqlpyifsWCKZMX585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architecture-theing-local-deployment-and-hardware-Requirements-3MF8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-face-tgi-on-amazon-sagemaker-ai/
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-Requirements-optimal-deployment-setup-2e48
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deeepseek-r1-distill-llama-70b-for-batch-in-aaws-graviton4?lang=en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deeepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-inference-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-now-available-as-a-plně-serverless-model-in-amazon-bedrock/

Existují nějaké doporučené příklady AWS pro efektivní provoz DeepSeek-R1

DeepSeek-R1 (celý model)

DeepSeek-R1 Destilované modely

nasazení založené na CPU

Plně spravovaná řešení