自动缩放可以通过基于实时需求动态调整实例和模型副本的数量来显着提高Amazon Sagemaker上DeepSeek-R1模型的性能。此功能可确保模型可以有效地处理工作负载的波动,从而在优化资源利用和成本的同时提供无缝的用户体验。
sagemaker自动缩放的主要优势
1。动态资源分配:自动缩放允许SageMaker在流量增加时提供其他实例并部署更多模型副本,以确保模型可以处理更高量的请求而不会损害性能。相反,随着流量的减少,不必要的实例被删除,通过避免闲置资源来降低成本[1] [2] [5]。
2。提高响应能力:通过扩展以满足需求增加,自动缩放有助于保持低潜伏期和高吞吐量。这对于像DeepSeek-R1这样的生成AI模型尤其重要,其中响应能力直接影响用户体验[2] [8]。
3.成本效率:自动缩放确保有效地使用资源。在非高峰时段,端点可以降低到零,从而优化资源使用率和成本效率。此功能对于具有可变流量模式的应用特别有益[1] [5]。
4。自适应缩放:SageMaker的自动缩放功能旨在适应诸如DeepSeek-R1之类的生成AI模型的特定需求。通过利用高分辨率指标,例如ConcurrentRequestspermodel和ConcurrentRequestSperCopy,该系统可以做出精确的缩放决策,从而确保模型保持响应迅速且具有成本效益[2] [8]。
5。与负载平衡的集成:自动缩放与弹性负载平衡无缝地工作,以有效地在扩展资源上分发传入的请求。这种集成确保没有任何一个实例不知所措,可以在所有请求中保持一致的性能[1] [8]。
###部署和绩效评估
DeepSeek-R1模型可以使用拥抱面部文本生成推断(TGI)在SageMaker上部署,该推理支持自动缩放。这些模型的性能是根据指标进行评估的,例如端到端延迟,吞吐量,首先令牌和延误延迟。尽管提供的评估提供了对相对性能的见解,但鼓励用户进行自己的测试,以优化特定用例和硬件配置的性能[1] [4]。
总而言之,对萨格马人的自动缩放通过确保动态资源分配,提高响应能力,优化成本和适应不断变化的需求,同时保持高质量的语言模型功能,从而提高了DeepSeek-R1的性能。
引用:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-hosting-deepseek-r1-dist------------------
[2] https://randomtrees.com/blog/auto-scaling-for-generative-generative-ai-models-with-amazon-sagemaker/
[3] https://repost.aws/questions? Y1DMAHKXCGRVUT09IIWIDCI6IKZRBITWVZI2M05ZVKLZBWGZT0VWZKK5WVM5WVM5WVM5OVKIVOXBYN21TQ0PPDTHTHRWWC9IN0
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distille-models-models-on-amazon-sagemaker-sagemaker-usis-using-a-rarge-a-large-model-inference-container/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[6] https://www.byteplus.com/en/topic/382691
[7] https://campustechnology.com/articles/2025/03/03/14/aws-ffers-deepseek-r1-as-as-as-man-manate-server-server-model-model-recommends-guardrails.aspx
[8] https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-inference-inference-launches-faster-auto-scaling-for-generative-generative-generative-ai-models/