Monitorar e avaliar o desempenho do Deepseek-R1 nas instâncias da AWS GPU envolve várias etapas e ferramentas. Aqui está um guia detalhado sobre como fazê -lo de maneira eficaz:
Ferramentas e métricas de monitoramento
Amazon CloudWatch
O Amazon CloudWatch é uma ferramenta essencial para monitorar os recursos da AWS, incluindo instâncias da GPU. Ele coleta e processa dados brutos em métricas legíveis e quase em tempo real. Para instâncias da GPU, você pode monitorar métricas como:- Utilização da GPU: a porcentagem de GPUs alocadas atualmente em uso.
- Gpumemoryutilização: a porcentagem da memória total da GPU em uso.
- cpuutilização: a porcentagem de unidades de computação EC2 alocadas em uso.
- Memoryutilization: a porcentagem de memória usada durante o período da amostra.
Para ativar as métricas de utilização da GPU, você precisa instalar o agente CloudWatch em suas instâncias e configurá -lo para coletar métricas da NVIDIA GPU [2] [8].
métricas da NVIDIA
Além das métricas do CloudWatch, você pode usar o comando `nvidia-smi` para monitorar o desempenho da GPU em tempo real. Este comando fornece informações detalhadas sobre utilização da GPU, uso de memória e temperatura [5].Métricas de avaliação de desempenho para Deepseek-R1
Ao avaliar o desempenho dos modelos Deepseek-R1, concentre-se nas seguintes métricas:
-Latência de ponta a ponta: o tempo entre enviar uma solicitação e receber a resposta.
- Taxa de transferência (tokens por segundo): o número de tokens processados por segundo.
- Hora de primeiro token: o tempo necessário para gerar o primeiro token em uma resposta.
- Latência entre toque: o tempo entre gerar cada token em uma resposta [1] [4].
cenários para teste
Para avaliar o desempenho do Deepseek-R1, considere testar diferentes cenários:- Comprimentos de token de entrada: teste com comprimentos de entrada curtos (por exemplo, 512 tokens) e médio (por exemplo, 3072 tokens) para avaliar como o modelo lida com tamanhos de entrada variados.
- Níveis de simultaneidade: avalie o desempenho sob diferentes níveis de simultaneidade (por exemplo, 1, 10) para avaliar a escalabilidade.
- Configurações de hardware: use vários tipos de instância da GPU (por exemplo, P4D, G5, G6) com diferentes números de GPUs para encontrar a configuração ideal para sua carga de trabalho [1] [4].
práticas recomendadas para monitoramento e avaliação
- Use a Amazon Sagemaker: implante modelos Deepseek-R1 usando o Sagemaker para alavancar seus recursos de monitoramento de infraestrutura e desempenho gerenciados.- Teste personalizado: execute testes personalizados com seus conjuntos de dados e casos de uso específicos para garantir que os resultados sejam relevantes para o seu aplicativo.
- Monitoramento contínuo: monitore regularmente as métricas de desempenho para identificar gargalos e otimizar a utilização de recursos [4] [7].
Seguindo estas etapas e usando as ferramentas corretas, você pode monitorar e avaliar efetivamente o desempenho do Deepseek-R1 nas instâncias da AWS GPU.
Citações:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with--igging--tgi-on-amazon-sagemaker-ai/
[2] https://docs.aws.amazon.com/compute-optimizer/latest/ug/ec2-metrics-analyzed.html
[3] https://www.reddit.com/r/singularity/comments/1ik2zf6/you_can_now_train_your_own_deepseekr1_model_on/
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://www.cloudotimo.com/blog/aws-g6-gpu-nstances-permance-use-cases-and-cost-optimization/
[6] https://github.com/aws-samples/amazon-sagemaker-generativeai/blob/main/llm-permance-evaluation/deepseek-r1-distilled/deepseek-r1-distilled-permance-evaluation-report.ipynb
[7] https://virtualizationreview.com/articles/2025/03/11/aws-first-cloud-giant-to-ffer-deepseek-ri-s-ly- liquidado-serverless-model.aspx
[8] https://docs.aws.amazon.com/amazonCloudwatch/latest/monitoring/cloudwatch-agent-nvidia-gpu.html
[9] https://aws.amazon.com/about-aws/whats-new/2025/03/deepseek-r1-lyly-managed-amazon-bedrock/