A escala automática aprimora significativamente o desempenho dos modelos Deepseek-R1 no Amazon Sagemaker, ajustando dinamicamente o número de instâncias e cópias de modelos com base na demanda em tempo real. Esse recurso garante que o modelo possa lidar com eficiência de flutuações na carga de trabalho, fornecendo uma experiência perfeita para o usuário e otimizando a utilização e custos de recursos.
Benefícios-chave da escala automática para Deepseek-R1 no Sagemaker
1. Alocação dinâmica de recursos: a escala automática permite que a Sagemaker forneça instâncias adicionais e implante mais cópias de modelo quando o tráfego aumentar, garantindo que o modelo possa lidar com um volume mais alto de solicitações sem comprometer o desempenho. Por outro lado, à medida que o tráfego diminui, instâncias desnecessárias são removidas, reduzindo os custos evitando recursos ociosos [1] [2] [5].
2. APENASA APOLUNDA APENSAÇÃO: Ao escalar para atender ao aumento da demanda, a escala automática ajuda a manter a baixa latência e a alta taxa de transferência. Isso é particularmente importante para modelos de IA generativos como Deepseek-R1, onde a capacidade de resposta afeta diretamente a experiência do usuário [2] [8].
3. Eficiência de custos: a escala automática garante que os recursos sejam usados com eficiência. Durante o horário de pico, o terminal pode diminuir para zero, otimizando o uso de recursos e a eficiência de custos. Esse recurso é especialmente benéfico para aplicações com padrões de tráfego variáveis [1] [5].
4. Escala adaptativa: os recursos de escala automática do Sagemaker são projetados para se adaptar às necessidades específicas de modelos generativos de IA como Deepseek-R1. Ao alavancar métricas de alta resolução, como o ConcurrentRequestsPermodel e o ConcurrentRequestSpercopy, o sistema pode tomar decisões precisas de escala, garantindo que o modelo permaneça responsivo e econômico [2] [8].
5. Integração com o balanceamento de carga: A escala automática funciona perfeitamente com o balanceamento de carga elástico para distribuir solicitações recebidas em recursos escalonados com eficiência. Essa integração garante que nenhuma instância única seja sobrecarregada, mantendo um desempenho consistente em todas as solicitações [1] [8].
Implantação e avaliação de desempenho
Os modelos Deepseek-R1 podem ser implantados no Sagemaker usando a inferência de geração de textos de rosto (TGI), que suporta a escala automática. O desempenho desses modelos é avaliado com base em métricas como latência de ponta a ponta, taxa de transferência, tempo para o primeiro token e latência entre toques. Embora as avaliações fornecidas ofereçam informações sobre o desempenho relativo, os usuários são incentivados a realizar seus próprios testes para otimizar o desempenho para casos de uso específicos e configurações de hardware [1] [4].
Em resumo, a escala automática do Sagemaker aprimora o desempenho do DeepSeek-R1, garantindo a alocação dinâmica de recursos, melhorando a capacidade de resposta, otimizando os custos e se adaptando às mudanças de demandas, mantendo os recursos de modelo de linguagem de alta qualidade.
Citações:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with--igging--tgi-on-amazon-sagemaker-ai/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2ijoylcjuiJoizgtmyktumnf0wuzn Y1dmahkxcgrvut09iwidci6ikzrbitwvzi2m05zvklzbwgzt0vwzk5wvm5ovkivoxbyn21tq0ppdthrwwc9in0
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[6] https://www.byteplus.com/en/topic/382691
[7] https://campustechnology.com/articles/2025/03/14/aws-eschers-deepseek-r1-as-lyly-managed-erverless-model-rendomends-guardrails.aspx
[8] https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-inference-launches-faster-auto-scaling-for-generative-ai-models/