„Deepseeek-R1“ diegimo optimizavimas AWS: egzemplioriaus rekomendacijos ir sąrankos vadovas

Efektyviai paleidžiant „Deepseek-R1“ AWS, reikia pasirinkti tinkamus egzempliorių tipus, remiantis konkrečiu modelio variantu ir norimu našumu. Čia pateikiama išsami rekomenduojamų AWS egzempliorių, skirtų įvairiems „Deepseeek-R1“ modeliams, apžvalga:

„Deepseek-R1“ (visas modelis)

Visam „Deepseeek-R1“ modeliui, turintiems 671 milijardą parametrų, reikia didelių skaičiavimo išteklių. Norint optimaliai našumui, rekomenduojama naudoti kelių GPU sąranką, pavyzdžiui, naudojant „NVIDIA A100 GPUS“. Tačiau AWS tiesiogiai nesiūlo A100 GPU standartiniuose EC2 egzemplioriuose. Vietoj to, galite apsvarstyti galimybę naudoti tokius egzempliorius kaip „Inf2.48xlarge“ panašiems aukšto našumo skaičiavimo poreikiams, nors jie labiau tinka pagreitinti išvadą, o ne mokyti didelių modelių, tokių kaip „Deepseek-R1“ [4].

„Deepseek-R1“ distiliuoti modeliai

Distiliuotoms „Deepseek-R1“ versijoms, kurios yra efektyvesnės ir reikalauja mažiau VRAM, gali būti naudojami skirtingi AWS egzemplioriai:

-„Deepseek-R1-Distill-Qwen-1,5b“: šį modelį galima efektyviai paleisti vienoje GPU egzemplioriuje. „Ml.G5.xlarge“ egzemplioriui rekomenduojama priglobti šį modelį dėl jo našumo metrikos [3].

-„Deepseeek-R1-Distill-Qwen-7b“ ir „Deepseeek-R1-Distill-llama-8b“: Šie modeliai gerai veikia tokiuose egzemplioriuose kaip „Ml.g6e.xlarge“, kurie siūlo gerą GPU galios ir kainos balansą. „Ml.G5.2xLarge“ ir „Ml.G5.xlarge“ egzemplioriai taip pat yra perspektyvios parinktys [3].

-„Deepseeek-R1-Distill-QWEN-14B“: Šiam modeliui reikalingas egzempliorius su galingesniu GPU. „G4DN.xlarge“ egzempliorius, pasižymintis NVIDIA T4 GPU, gali nepakakti dėl savo VRAM apribojimų. Verčiau apsvarstykite galimybę naudoti egzempliorius su galingesniais GPU, tokiais kaip „Ml.G6“ šeima arba pasirenkate pasirinktinę sąranką su aukštesnės klasės GPU, jei įmanoma [1] [2].

-„Deepseek-R1-Distill-Qwen-32B“ ir „Deepseeek-R1-Distill-llama-70b“: Šie didesniems modeliams reikia dar galingesnių GPU. Norint optimaliai našumui, rekomenduojami egzemplioriai su aukštos klasės GPU, tokiais kaip „NVIDIA RTX 4090“, nors tokių specifinių GPU nėra tiesiogiai prieinami standartiniuose AWS EC2 egzemplioriuose. Tačiau norint atlikti didelio našumo išvadų užduotis, galite naudoti tokius egzempliorius kaip „Inf2.48xLarge“ [4] [6].

CPU pagrįstas diegimas

Atliekant partijų apdorojimo užduotis, kai latentinis latentinis veiksnys nėra kritinis veiksnys, AWS graviton4 pagrįsti egzemplioriai gali pasiūlyti ekonomišką sprendimą. „C8G.16xlarge“ egzempliorius, turintis didelį pagrindinį skaičių ir atminties pralaidumą, yra tinkamas modeliams, tokiems kaip „Deepseek-R1-Distill-Llama-70B“, tik CPU aplinkoje [6].

Visiškai valdomi sprendimai

Vartotojams, kurie nori valdyti infrastruktūrą, „Deepseek-R1“ taip pat yra visiškai valdomas be serverio modelis „Amazon Bedrock“. Ši parinktis leidžia panaudoti modelio galimybes, nesijaudinant dėl pagrindinio infrastruktūros sudėtingumo [9].

Apibendrinant galima pasakyti, kad AWS egzemplioriaus pasirinkimas efektyviai paleisti „Deepseek-R1“ priklauso nuo konkretaus modelio varianto, reikiamo našumo lygio ir nuo to, ar būtinas GPU pagreitis. Daugeliui distiliuotų modelių rekomenduojami egzemplioriai su galingais GPU, o CPU pagrįsti egzemplioriai gali būti tinkami partijų apdorojimo užduotims.

Citatos:
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/depalling-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architcture-training-local-deployment-and-hardware-requirements-3Mf8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-hugging-face-on-on-amazon-sagemaker-ai/
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseeek-r1-671b-complete-hardware-requirements-optimal-deployment-setup-2e48
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-r1-distill-llama-70b-for-batch-inference-on-aws-graviton4?lang=en
[7] https://aws.amazon.com/blogs/machine-learning/depall-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-now-avable-as-a-a-fulsy-ainage-serverless-model-in-mazon-bedrock/

Ar yra kokių nors rekomenduojamų AWS egzempliorių, skirtų efektyviai paleisti „Deepseek-R1“

„Deepseek-R1“ (visas modelis)

„Deepseek-R1“ distiliuoti modeliai

CPU pagrįstas diegimas

Visiškai valdomi sprendimai