Optimalizácia nasadenia Deepseek-R1 na AWS: Odporúčania inštancie a Sprievodca nastavením

Spustenie efektívneho behu Deepseek-R1 na AWS vyžaduje výber správnych typov inštancií na základe konkrétneho variantu modelu a požadovaného výkonu. Tu je podrobný prehľad odporúčaných inštancií AWS pre rôzne modely Deepseek-R1:

Deepseek-R1 (plný model)

Celý model Deepseek-R1 s 671 miliárdmi parametrami vyžaduje značné výpočtové zdroje. Pre optimálny výkon sa odporúča nastavenie viacerých GPU, napríklad použitie GPU NVIDIA A100. AWS však vo svojich štandardných inštanciách EC2 priamo neponúka GPU A100 GPU. Namiesto toho môžete zvážiť použitie inštancií ako „inf2.48xlarge“ pre podobné vysoko výkonné výpočtové potreby, hoci sú vhodnejšie pre inferenčné zrýchlenie, než na školenie veľkých modelov, ako je Deepseek-R1 [4].

Deepseek-R1 destilované modely

Pre destilované verzie Deepseek-R1, ktoré sú efektívnejšie a vyžadujú menej VRAM, je možné použiť rôzne inštancie AWS:

-Deepseek-R1-Distill-Qwen-1.5b: Tento model sa dá efektívne spustiť na jednej inštancii GPU. Inštancia `ML.G5.XLARGE` sa odporúča na hosťovanie tohto modelu kvôli jeho výkonnostným metrikom [3].

-Deepseek-R1-Distill-Qwen-7b a Deepseek-R1-Distill-Llama-8B: Tieto modely fungujú dobre na inštanciách ako `ml.g6e.xlarge`, ktoré ponúka dobrú rovnováhu síl a nákladov GPU. Inštancie `Ml.g5.2xlarge` a` Ml.g5.xlarge 'sú tiež životaschopné možnosti [3].

-Deepseek-R1-Distill-Qwen-14B: Pre tento model je potrebná inštancia s výkonnejším GPU. Inštancia „G4DN.XLARGE`, ktorá obsahuje GPU NVIDIA T4, nemusí byť dostatočná kvôli svojim obmedzeniam VRAM. Namiesto toho zvážte použitie inštancií s výkonnejšími GPU, ako sú napríklad v rodine `ml.g6`, alebo sa rozhodnite pre vlastné nastavenie s vyšším gpusom GPU, ak je k dispozícii [1] [2].

-Deepseek-R1-Distill-Qwen-32B a Deepseek-R1-Distill-Llama-70B: Tieto väčšie modely vyžadujú ešte výkonnejšie GPU. Pre optimálny výkon sa odporúčajú inštancie s špičkovými GPU, ako je NVIDIA RTX 4090, hoci takéto špecifické GPU nie sú priamo dostupné v štandardných inštanciách AWS EC2. Môžete však použiť inštancie ako `inf2.48xlarge` pre vysoko výkonné inferenčné úlohy [4] [6].

CPU založené na nasadení

Pre úlohy dávkového spracovania, kde latencia nie je kritickým faktorom, môžu inštancie založené na AWS Graviton4 ponúknuť nákladovo efektívne riešenie. Inštancia „C8G.16xlarge`, s vysokou šírkou pásma jadra a šírky pamäte, je vhodná na spustenie modelov ako Deepseek-R1-Distill-Llama-70B v prostredí iba CPU [6].

Plne spravované riešenia

Pre používateľov, ktorí radšej nespravujú infraštruktúru, je Deepseek-R1 k dispozícii aj ako plne spravovaný model bez servera v Amazon Bedrock. Táto možnosť vám umožňuje využiť schopnosti modelu bez obáv z komplexnosti infraštruktúry [9].

Stručne povedané, výber inštancie AWS na efektívne spustenie DeepSeek-R1 závisí od konkrétneho variantu modelu, požadovanej úrovne výkonu a od toho, či je potrebné zrýchlenie GPU. Pre väčšinu destilovaných modelov sa odporúčajú inštancie s výkonnými GPU, zatiaľ čo inštancie založené na CPU môžu byť vhodné pre úlohy dávkového spracovania.

Citácie:
Https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deployinginginginging-deepseek-r1-14b-on-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architutec-training-mlocal-deployment-and-dhardware-requirements-3MF8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distille-models-with-hugging-for-tgi-on-on-amazon-sagemaker-ai/
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-deployment-setupment--2e48
Https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deployinginging-deepseek-r1-distill-llama-70b-for-batch-inference-on-aws-aws-aws-aws-aws-aws-aws-aws-aws-aws-aws-aws- graviton4?lang=en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distille-models-on-on-amazon-sagemaker-using-using-a-large-model-inference-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-now-available-as-a-eflufy-managed-serverless-model-in--amazon-bedrock/

Existujú nejaké odporúčané inštancie AWS na efektívne spúšťanie Deepseek-R1

Deepseek-R1 (plný model)

Deepseek-R1 destilované modely

CPU založené na nasadení

Plne spravované riešenia