Amazon Sagemakerの弾性負荷分散(ELB)による自動スケーリング

Amazon Sagemakerの弾性負荷分散(ELB)を使用した自動スケーリングには、これらのインスタンス全体に着信トラフィックを効率的に配布しながら、ワークロード需要に基づいてインスタンスの数を動的に調整することが含まれます。この統合の仕組みの詳細な概要は次のとおりです。

##セーゲメーカーの自動スケーリング

Amazon Sagemakerは、リアルタイムエンドポイントの自動スケーリングをサポートしており、推論ワークロードの変化に応じてモデルにプロビジョニングされたインスタンスの数を動的に調整できるようにします[3] [7]。この機能により、リソースがピーク時にスケールアウトし、低需要期間中にスケーリングすることで最適化され、それによりコストを最小限に抑えながら最適なパフォーマンスを維持します[1] [3]。

Sagemakerは、ターゲット追跡スケーリング、ステップスケーリング、スケジュールされたスケーリングなど、いくつかの自動スケーリングオプションを提供します。ターゲット追跡スケーリングが一般的に使用されます。ここでは、ターゲットメトリック(CPU使用率など)を設定し、Sagemakerがインスタンスカウントを調整してそのターゲットを維持します[3] [5]。

Elastic Load Balancing(ELB)統合

Sagemakerの自動スケーリングは、主にワークロードメトリックに基づいてインスタンスカウントの調整に焦点を当てていますが、弾性負荷バランスと統合すると、これらのインスタンス全体のトラフィックの分布が強化されます。 ELBは、着信要求が利用可能なインスタンスに最適にルーティングされ、応答性を改善し、ボトルネックを減らすことを保証します[9]。

典型的なセットアップでは、ELBは自動スケーリンググループにインスタンスを登録し、それらを横切るトラフィックを分配します。自動スケーリングによってインスタンスが追加または削除されると、ELBは自動的に構成を調整して、これらのインスタンスを含めるか除外し、トラフィックが常にアクティブインスタンスに向けられるようにします[9]。

##セーゲメーカーのELBで自動スケーリングがどのように機能するか

1。ワークロード監視：Sagemakerは、インスタンスごとにCPU使用または同時リクエストなどのワークロードメトリックを監視します。これらのメトリックが事前定義されたしきい値を超える場合、自動スケーリングポリシーがトリガーされます[2] [3]。

2。スケーリングアクション：ワークロードが増加すると、サージメーカーは追加のインスタンスをプロビジョニングすることでスケールアウトします。 ELBはこれらの新しいインスタンスを自動的に登録し、それらにトラフィックの分配を開始します。逆に、ワークロードが低下すると、サージメーカーは不必要なインスタンスを除去することで尺度を拡大し、肘デレギスターはこれらのインスタンスを排除してトラフィックを受け取るのを防ぎます[2] [9]。

3。トラフィック分布：このプロセス全体で、ELBは、着信要求がアクティブなインスタンス全体に効率的に分布することを保証します。これは、パフォーマンスを向上させるだけでなく、応答時間を最小限に抑え、ボトルネックを避けることで、一貫したユーザーエクスペリエンスを維持するのにも役立ちます[9]。

4。コストの最適化：実際の需要に基づいてインスタンスをスケーリングし、肘を使用して交通量の流通を管理することにより、組織はコストを最適化できます。彼らは使用するリソースのみを支払い、低需要の期間中に不必要な費用を削減します[3] [7]。

要約すると、Sagemakerでの自動スケーリングと弾性負荷分散の統合は、リアルタイムの推論ワークロードを管理するための堅牢で効率的な方法を提供します。最適なパフォーマンスとコスト効率を維持しながら、リソースが変化する需要を満たすように動的に調整されます。

引用：
[1] https://businesscompassllc.com/efficiently-managing-traffic-for-amazon-sagon-real-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/

セージメーカーの弾性負荷分散で自動スケーリングはどのように機能しますか

Elastic Load Balancing(ELB)統合