Amazon Sagemaker의 ELB (Elastic Load Balancing)를 통한 자동 스케일링에는 워크로드 요구에 따라 인스턴스 수를 동적으로 조정하면서 이러한 인스턴스에 걸쳐 들어오는 트래픽을 효율적으로 분배합니다. 이 통합의 작동 방식에 대한 자세한 개요는 다음과 같습니다.
SAGEMAKER의 자동 스케일링
Amazon Sagemaker는 실시간 엔드 포인트의 자동 스케일링을 지원하여 시스템이 추론 워크로드의 변경에 응답하여 모델에 대해 프로비저닝 된 인스턴스 수를 동적으로 조정할 수 있도록합니다 [3] [7]. 이 기능은 피크 시간 동안 스케일링하고 수요가 적은 기간 동안 확장하여 리소스를 최적화하여 최적의 성능을 유지하면서 비용을 최소화합니다 [1] [3].
Sagemaker는 대상 추적 스케일링, 스텝 스케일링 및 스케일 스케일링을 포함한 몇 가지 자동 스케일링 옵션을 제공합니다. 대상 추적 스케일링은 일반적으로 사용되며, 여기서 대상 메트릭 (예 : CPU 사용)을 설정하고 Sagemaker는 해당 대상을 유지하도록 인스턴스 수를 조정합니다 [3] [5].
ELB (Elastic Load Balancing) 통합
Sagemaker의 자동 스케일링은 주로 워크로드 메트릭을 기반으로 인스턴스 수를 조정하는 데 중점을 두지 만 탄성로드 밸런싱과 통합하면 이러한 인스턴스의 트래픽 분포가 향상됩니다. ELB는 들어오는 요청이 사용 가능한 사례로 최적으로 라우팅되어 응답 성을 향상시키고 병목 현상을 줄입니다 [9].
일반적인 설정에서 ELB는 자동 스케일링 그룹에 인스턴스를 등록하고 트래픽을 배포합니다. 자동 스케일링에 의해 인스턴스가 추가되거나 제거되면 ELB는 이러한 인스턴스를 포함 시키거나 제외하도록 구성을 자동으로 조정하여 트래픽이 항상 활성 인스턴스로 향하는지 확인합니다 [9].
Sagemaker의 ELB와 자동 스케일링이 어떻게 작동하는지
1. 워크로드 모니터링 : Sagemaker는 CPU 사용 및 인스턴스 당 동시 요청과 같은 워크로드 메트릭을 모니터링합니다. 이러한 메트릭이 사전 정의 된 임계 값을 초과하면 자동 스케일링 정책이 트리거됩니다 [2] [3].
2. 스케일링 동작 : 워크로드가 증가하면 Sagemaker는 추가 인스턴스를 프로비저닝하여 확장됩니다. ELB는 이러한 새로운 인스턴스를 자동으로 등록하고 트래픽을 분배하기 시작합니다. 반대로, 워크로드가 줄어들면, Sagemaker는 불필요한 인스턴스를 제거하여 스케일링하고 ELB는 이러한 사례를 트래픽을받지 못하게하기 위해 이러한 인스턴스를 규모하게합니다 [2] [9].
3. 트래픽 분포 :이 과정에서 ELB는 수신 요청이 활성 인스턴스에 효율적으로 배포되도록합니다. 이는 성능을 향상시킬뿐만 아니라 응답 시간을 최소화하고 병목 현상을 피함으로써 일관된 사용자 경험을 유지하는 데 도움이됩니다 [9].
4. 비용 최적화 : 실제 수요에 따라 인스턴스를 확장하고 ELB를 사용하여 트래픽 분배를 관리하면 조직은 비용을 최적화 할 수 있습니다. 그들은 그들이 사용하는 자원에 대해서만 비용을 지불하여 수요가 낮은 기간 동안 불필요한 비용을 줄입니다 [3] [7].
요약하면, Sagemaker에서 탄성로드 밸런싱과 자동 스케일링을 통합하면 실시간 추론 워크로드를 관리하는 강력하고 효율적인 방법을 제공합니다. 최적의 성능과 비용 효율성을 유지하면서 변화하는 수요를 충족시키기 위해 리소스가 동적으로 조정되도록합니다.
인용 :
[1] https://businesscompassllc.com/efficely-managing-traffic-for-amazon-sagemaker-real-time-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-time-ai--iNference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/