Amazon Sagemaker의 자동 스케일링은 워크로드 요구에 따라 인스턴스 수를 동적으로 조정하여 DeepSeek-R1과 같은 모델을 배포하는 비용에 큰 영향을 미칩니다. 다음은 자동 스케일링이 비용에 어떤 영향을 미치는지에 대한 자세한 설명입니다.
자동 스케일링 기본
자동 스케일링을 통해 Sagemaker는 들어오는 트래픽 또는 워크로드에 따라 모델에 할당 된 인스턴스 수를 자동으로 증가 또는 감소시킬 수 있습니다. 이는 수요가 높은 기간 동안 증가 된 부하를 처리하기 위해 더 많은 사례가 제공되고 반대로 수요가 낮은 기간 동안 불필요한 비용을 최소화하기 위해 인스턴스가 축소됩니다 [7].
비용 최적화
1. 유휴 리소스 감소 : 비 활동 기간 동안 제로 인스턴스로 확장하면 유휴 자원에 대한 비용을 지불하지 않으려면 특히 트래픽이 산발적 일 수있는 개발 또는 테스트 환경에서 비용을 크게 줄일 수 있습니다 [4].
2. 효율적인 자원 활용 : 자동 스케일링을 사용하면 주어진 시간에 필요한 자원에 대해서만 지불 할 수 있습니다. 이는 피크 시간 동안 자원을 과도하게 제공하지 않고 트래픽 증가를 처리 할 수 있으며 피크 외 시간에는 비용을 최소화하기 위해 확장을 줄입니다 [7].
3. 예측 가능한 비용 관리 : 자동 스케일링을 사용하면 예측 가능한 트래픽 패턴에 대한 예정된 스케일링 작업을 설정할 수 있습니다. 이를 통해 자원 할당을 예상 수요와 정렬하여 비용을보다 효과적으로 관리 할 수 있습니다 [4].
DeepSeek-R1 배포 고려 사항
Sagemaker에 DeepSeek-R1 또는 증류 변이체를 배포 할 때 자동 스케일링이 특히 유리할 수 있습니다. 이러한 모델, 특히 DeepSeek-R1-Distill-Qwen-14B 또는 DeepSeek-R1-Distill-Qwen-32B와 같은 더 큰 모델은 상당한 계산 자원이 필요하며 지속적으로 실행하는 데 비용이 많이들 수 있습니다 [6]. 자동 스케일링을 활용하면 이러한 리소스가 필요할 때만 프로비저닝되어 전체 비용을 줄일 수 있습니다.
보안 및 성능 고려 사항
자동 스케일링은 주로 비용 최적화 전략이지만 Sagemaker의 보안 기능과도 통합됩니다. 예를 들어, 개인 S3 버킷에서 모델을 배포하면 모델 가중치를 엔드 포인트에 더 가깝게 유지하고 배포 전에 취약점 스캔을 허용하여 보안을 향상시킬 수 있습니다 [3]. 또한, 실시간 추론에 더 큰 배치 크기를 사용하면 비용과 성능을 모두 최적화 할 수 있습니다 [2].
요약하면, Sagemaker의 자동 스케일링은 리소스가 실제 수요와 일치하도록함으로써 DeepSeek-R1과 같은 모델을 배포하는 비용을 최적화하기위한 강력한 도구입니다.
인용 :
[1] https://www.linkedin.com/pulse/unlocking-cost-efficiency-strateing-optimizing-amazon-af4of
[2] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-host-host-deepseek-distilled-models-with-hugging-face-tgi-amazon-sagemaker-ai/
[4] https://aws.amazon.com/blogs/machine-leockning/unlock-cost-savings-with-the-new-scale-feat-to-zero-feature-in-amazon-sagemaker-inference/
[5] https://community.aws/content/2sg84dnucfza9z4hdfqti0tcvkp/deploying-deepseek-r1-on-amazon-sagemaker?lang=en
[6] https://community.aws/content/2z6dlaohx12yunoeas7qb5yth0q/leveraging-deepseek-r1-on-oaws?lang=en
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://www.linkedin.com/posts/ranman_while-deepseek-r1-is-technically-avable-actable-actable-actable-cavable-cavable-cavable-cavable-cavable-cavable-cavable-cavable-cavable-cavable-cavable-actable-available-available-available-
[9] https://aws.amazon.com/sagemaker/pricing/