Optymalizacja wdrożenia DeepSeek-R1 na AWS: Zalecenia instancji i przewodnik konfiguracji

Wykonanie DeepSeek-R1 na AWS wymaga wybrania odpowiednich typów instancji na podstawie określonego wariantu modelu i pożądanej wydajności. Oto szczegółowy przegląd zalecanych instancji AWS dla różnych modeli DeepSeek-R1:

Deepseek-R1 (pełny model)

Pełny model DeepSeek-R1, z 671 miliardami parametrów, wymaga znacznych zasobów obliczeniowych. Aby uzyskać optymalną wydajność, zaleca się konfigurację wielu GPU, na przykład stosowanie GPU NVIDIA A100. Jednak AWS nie oferuje bezpośrednio A100 GPU w swoich standardowych instancjach EC2. Zamiast tego możesz rozważyć użycie instancji takich jak „Inf2.48xLarge” dla podobnych potrzeb obliczeniowych o wysokiej wydajności, chociaż są one bardziej odpowiednie do przyspieszenia wnioskowania, niż szkolenia dużych modeli, takich jak Deepseek-R1 [4].

DeepSeek-R1 Modele destylowane

W przypadku destylowanych wersji DeepSeek-R1, które są bardziej wydajne i wymagają mniej VRAM, można zastosować różne instancje AWS:

-DeepSeek-R1-Distill-Qwen-1.5b: Ten model można skutecznie uruchomić w pojedynczej instancji GPU. Instancja „ml.g5.xlarge” jest zalecana do hostowania tego modelu ze względu na jego wskaźniki wydajności [3].

-DeepSeek-R1-Distill-Qwen-7B i Deepseek-R1-Distill-Lama-8B: Modele te działają dobrze w przypadkach takich jak `ml.g6e.xlarge`, który oferuje dobrą równowagę siły GPU i kosztów. Instancje „ml.g5.2xlarge` i` ml.g5.xlarge` są również opcjami [3].

-Deepseek-R1-Distill-Qwen-14b: Dla tego modelu potrzebna jest instancja z mocniejszym procesorem graficznym. Instancja „g4dn.xlarge`, która ma NVIDIA T4 GPU, może nie być wystarczająca ze względu na ograniczenia VRAM. Zamiast tego rozważ użycie instancji z mocniejszymi procesorami graficznymi, takimi jak w rodzinie „ml.g6` lub wybieranie niestandardowej konfiguracji z GPU wyższej klasy, jeśli są dostępne [1] [2].

-DeepSeek-R1-Distill-Qwen-32B i Deepseek-R1-Distill-Lama-70B: Te większe modele wymagają jeszcze mocniejszego GPU. Aby uzyskać optymalną wydajność, zalecane są instancje z wysokiej klasy GPU, takie jak NVIDIA RTX 4090, chociaż takie konkretne GPU nie są bezpośrednio dostępne w standardowych instancjach AWS EC2. Możesz jednak używać instancji takich jak „Inf2.48xlarge” do zadań o wysokiej wydajności [4] [6].

wdrożenie oparte na procesorze

W przypadku zadań przetwarzania wsadowego, w których opóźnienie nie jest czynnikiem krytycznym, instancje oparte na AWS Graviton4 mogą zaoferować opłacalne rozwiązanie. Instancja „C8G.16XLARGE”, z wysoką liczbą rdzenia i przepustowością pamięci, jest odpowiednia do uruchamiania modeli, takich jak DeepSeek-R1-Distill-Lama-70B w środowisku tylko dla CPU [6].

w pełni zarządzane rozwiązania

Dla użytkowników, którzy wolą nie zarządzać infrastrukturą, DeepSeek-R1 jest również dostępny jako w pełni zarządzany model bez serwera w Amazon Bedrock. Ta opcja pozwala wykorzystać możliwości modelu bez martwienia się o podstawowe złożoności infrastruktury [9].

Podsumowując, wybór instancji AWS do skutecznego uruchamiania DeepSeek-R1 zależy od konkretnego wariantu modelu, wymaganego poziomu wydajności i tego, czy konieczne jest przyspieszenie GPU. W przypadku większości modeli destylowanych zalecane są instancje z potężnym GPU, a instancje oparte na procesorach mogą być odpowiednie do zadań przetwarzania wsadowego.

Cytaty:
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architecture-training-local-dployment-and-hardware-requirements-3mf8
[3] https://aws.amazon.com/blogs/machine-loarning/optimize-hosting-deepseek-r1-distilled-simodels-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requirements-optimal-one-setup-2e48
[6] https://community.aws/content/2rhrji6cxba1ib5f3tjsfpadpxs/deploying-deepseek-distill-llama-70b-for-batch--anderference-on-aws-gaviton4?lang=en
[7] https://aws.amazon.com/blogs/machine-loarning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek-r1-ow-available-as-a-ly-mananaged-serless-model-n-amazon-bedrock/

Czy są jakieś zalecane instancje AWS do efektywnego prowadzenia DeepSeek-R1

Deepseek-R1 (pełny model)

DeepSeek-R1 Modele destylowane

wdrożenie oparte na procesorze

w pełni zarządzane rozwiązania