자동 스케일링은 실시간 수요에 따라 인스턴스 및 모델 사본 수를 동적으로 조정함으로써 Amazon Sagemaker에서 DeepSeek-R1 모델의 성능을 크게 향상시킵니다. 이 기능을 통해 모델은 워크로드의 변동을 효율적으로 처리 할 수있어 리소스 활용 및 비용을 최적화하면서 원활한 사용자 경험을 제공 할 수 있습니다.
SAGEMAKER의 DeepSeek-R1에 대한 자동 스케일링의 주요 이점
1. 동적 리소스 할당 : 자동 스케일링을 사용하면 SAGEMAKER가 추가 인스턴스를 제공하고 트래픽이 증가 할 때 더 많은 모델 사본을 배포하여 모델이 성능을 손상시키지 않고 더 많은 양의 요청을 처리 할 수 있도록합니다. 반대로 트래픽이 줄어들면서 불필요한 사례가 제거되어 유휴 자원을 피함으로써 비용이 절감됩니다 [1] [2] [5].
2. 응답 개선 : 수요 증가를 충족시키기 위해 확장하여 자동 스케일링은 낮은 대기 시간과 높은 처리량을 유지하는 데 도움이됩니다. 이것은 응답 성이 사용자 경험에 직접적인 영향을 미치는 DeepSeek-R1과 같은 생성 AI 모델에 특히 중요합니다 [2] [8].
3. 비용 효율성 : 자동 스케일링은 자원을 효율적으로 사용하도록합니다. 피크가 아닌 시간 동안 엔드 포인트는 0으로 축소되어 리소스 사용 및 비용 효율성을 최적화 할 수 있습니다. 이 기능은 가변적 인 트래픽 패턴을 가진 응용 프로그램에 특히 유리합니다 [1] [5].
4. 적응 형 스케일링 : Sagemaker의 자동 스케일링 기능은 DeepSeek-R1과 같은 생성 AI 모델의 특정 요구에 적응하도록 설계되었습니다. ConcurrentRequestSperModel 및 ConcurrentRequestSperCopy와 같은 고해상도 메트릭을 활용함으로써 시스템은 정확한 스케일링 결정을 내릴 수있어 모델이 반응이 좋고 비용 효율적으로 유지 될 수 있습니다 [2] [8].
5.로드 밸런싱과의 통합 : 자동 스케일링은 탄성로드 밸런싱과 완벽하게 작동하여 확장 된 자원에 효율적으로 들어오는 요청을 배포합니다. 이 통합은 단일 인스턴스가 압도되지 않도록하여 모든 요청에 걸쳐 일관된 성능을 유지합니다 [1] [8].
배포 및 성능 평가
DeepSeek-R1 모델은 Auto-Scaling을 지원하는 Hugging Face Text Generation Onerference (TGI)를 사용하여 Sagemaker에 배치 할 수 있습니다. 이 모델의 성능은 엔드 투 엔드 대기 시간, 처리량, 첫 토큰 시간 및 고정 대기 시간과 같은 메트릭을 기반으로 평가됩니다. 제공된 평가는 상대적 성능에 대한 통찰력을 제공하지만 사용자는 특정 사용 사례 및 하드웨어 구성에 대한 성능을 최적화하기 위해 자체 테스트를 수행하는 것이 좋습니다 [1] [4].
요약하면, Sagemaker의 자동 스케일링은 동적 리소스 할당을 보장하고, 대응 성을 개선하고, 비용을 최적화하며, 변화하는 요구에 적응하여 고품질 언어 모델 기능을 유지함으로써 DeepSeek-R1의 성능을 향상시킵니다.
인용 :
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-distilled-models-with-hugging-face-tgi-amazon-sagemaker-ai/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://repost.aws/questions?view=lall&sort=recent&page=eyj2ijoylcjuijoizgtmyktumnf0wuzn Y1DMAHKXCGRVUT09IIIWIDCI6IKZRBITWVZI2M05ZVKLZBWGZT0VWZK5WVM5OVKIVOXBYN21TQ0PPDTHWWC9IN0
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[6] https://www.byteplus.com/en/topic/382691
[7] https://campustechnology.com/articles/2025/03/14/aws- offers-deepseek-r1-as-ly-ly-ly-ly-ly-ly-ly-ly-manging-serverless-model-guardrails.aspx
[8] https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker--inference-launches-sfaster-auto-scaling-for-generative-ai-models/