Otimizando a implantação Deepseek-R1 na AWS: recomendações de instância e guia de configuração

A execução do DeepSeek-R1 com eficiência na AWS requer a seleção dos tipos de instância certos com base na variante de modelo específica e no desempenho desejado. Aqui está uma visão geral detalhada das instâncias recomendadas da AWS para diferentes modelos Deepseek-R1:

Deepseek-r1 (modelo completo)

O modelo completo de Deepseek-R1, com 671 bilhões de parâmetros, requer recursos computacionais substanciais. Para um desempenho ideal, recomenda-se uma configuração multi-GPU, como o uso de GPUs NVIDIA A100. No entanto, a AWS não oferece diretamente as GPUs A100 em suas instâncias padrão do EC2. Em vez disso, você pode considerar o uso de instâncias como `inf2.48xlarge` para necessidades de computação de alto desempenho semelhantes, embora elas sejam mais adequadas para aceleração de inferência, em vez de treinar grandes modelos como Deepseek-R1 [4].

Modelos destilados Deepseek-R1 Deepseek-R1
Para as versões destiladas do DeepSeek-R1, que são mais eficientes e requerem menos VRAM, diferentes instâncias da AWS podem ser usadas:

-Deepseek-R1-Distill-Qwen-1.5b: Este modelo pode ser executado com eficiência em uma única instância de GPU. A instância `ml.g5.xlarge` é recomendada para hospedar este modelo devido às suas métricas de desempenho [3].

-Deepseek-R1-Distill-Qwen-7b e Deepseek-R1-Distill-LLama-8B: Esses modelos têm um bom desempenho em instâncias como `ml.g6e.xlarge`, que oferece um bom equilíbrio de energia e custo da GPU. As instâncias `ml.g5.2xlarge` e` ml.g5.xlarge` também são opções viáveis [3].

-Deepseek-R1-Distill-Qwen-14b: para este modelo, é necessária uma instância com uma GPU mais poderosa. A instância `g4dn.xlarge`, que apresenta GPUs NVIDIA T4, pode não ser suficiente devido às suas limitações de VRAM. Em vez disso, considere o uso de instâncias com GPUs mais poderosas como as da família `ML.G6` ou optando por uma configuração personalizada com GPUs de ponta, se disponível [1] [2].

-Deepseek-R1-Distill-Qwen-32b e Deepseek-R1-Distill-LLama-70B: Esses modelos maiores requerem GPUs ainda mais poderosos. Para um desempenho ideal, são recomendadas instâncias com GPUs de ponta como o NVIDIA RTX 4090, embora essas GPUs específicas não estejam diretamente disponíveis nas instâncias padrão do AWS EC2. No entanto, você pode usar instâncias como `inf2.48xlarge` para tarefas de inferência de alto desempenho [4] [6].

implantação baseada em CPU

Para tarefas de processamento em lote em que a latência não é um fator crítico, as instâncias baseadas em AWS Graviton4 podem oferecer uma solução econômica. A instância `C8G.16XLarge`, com sua alta contagem de núcleos e largura de banda de memória, é adequada para executar modelos como Deepseek-R1-Distill-LLama-70B em um ambiente somente para CPU [6].

soluções totalmente gerenciadas

Para usuários que preferem não gerenciar a infraestrutura, o Deepseek-R1 também está disponível como um modelo sem servidor totalmente gerenciado na Amazon Bedrock. Esta opção permite aproveitar os recursos do modelo sem se preocupar com as complexidades de infraestrutura subjacentes [9].

Em resumo, a escolha da instância da AWS para executar o Deepseek-R1 depende com eficiência da variante de modelo específica, do nível de desempenho necessário e se a aceleração da GPU é necessária. Para a maioria dos modelos destilados, são recomendadas instâncias com GPUs poderosas, enquanto as instâncias baseadas na CPU podem ser adequadas para tarefas de processamento em lote.

Citações:
[1] https://community.aws/content/2seuhqlpyifswckzmx585jcksgn/deploying-deepseek-r1-14b-on-amazon-ec2?lang=en
[2] https://dev.to/askyt/deepseek-r1-architecture-trening-local-deployment-and-hardware-requirements-3mf8
[3] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-huggging-tgi-on-amazon-sagemaker-ai/
[4] https://huggingface.co/blog/deepseek-r1-aws
[5] https://dev.to/askyt/deepseek-r1-671b-complete-hardware-requiirements-optimal-deployment-setup-2e48
[6] https://community.aws/content/2rhrji6cxba1iB5f3tjsfpadpxs/deploying-deepseek-r1-distill-llama-70b-for-batch infere-on-aws-graviton4?nang=en
[7] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[8] https://www.reddit.com/r/localllm/comments/1i6j3ih/how_to_install_deepseek_what_models_and/
[9] https://aws.amazon.com/blogs/aws/deepseek--uns-now-available-as--lyly-managed-severless-model-in-amazon-bedrock/

Existem instâncias recomendadas da AWS para executar o Deepseek-R1 com eficiência

Deepseek-r1 (modelo completo)

implantação baseada em CPU

soluções totalmente gerenciadas