Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Comment fonctionne la mise à l'échelle automatique avec l'équilibrage de la charge élastique sur Sagemaker


Comment fonctionne la mise à l'échelle automatique avec l'équilibrage de la charge élastique sur Sagemaker


La mise à l'échelle automatique avec l'équilibrage de la charge élastique (ELB) dans Amazon Sagemaker implique d'ajuster dynamiquement le nombre d'instances basées sur les demandes de charge de travail tout en distribuant efficacement le trafic entrant sur ces instances. Voici un aperçu détaillé du fonctionnement de cette intégration:

Auto-échelle dans Sagemaker

Amazon SageMaker prend en charge la mise à l'échelle automatique pour les points de terminaison en temps réel, permettant au système d'ajuster dynamiquement le nombre d'instances provisibles pour un modèle en réponse aux modifications de la charge de travail d'inférence [3] [7]. Cette fonctionnalité garantit que les ressources sont optimisées en évoluant pendant les heures de pointe et en me dédale pendant des périodes à faible demande, maintenant ainsi des performances optimales tout en minimisant les coûts [1] [3].

SageMaker propose plusieurs options de mise à l'échelle automatique, notamment la mise à l'échelle du suivi des cibles, la mise à l'échelle des étapes et la mise à l'échelle planifiée. La mise à l'échelle du suivi cible est couramment utilisée, où vous définissez une métrique cible (par exemple, l'utilisation du processeur) et SageMaker ajuste le nombre d'instructions pour maintenir cette cible [3] [5].

Intégration de l'équilibrage de la charge élastique (ELB)

Bien que la mise à l'échelle automatique de SageMaker se concentre principalement sur l'adaptation des dénombrements d'instructions basés sur les mesures de charge de travail, l'intégration à l'équilibrage de la charge élastique améliore la distribution du trafic à travers ces instances. ELB garantit que les demandes entrantes sont acheminées de manière optimale vers les instances disponibles, améliorant la réactivité et réduisant les goulots d'étranglement [9].

Dans une configuration typique, ELB enregistre les instances dans un groupe de mise à l'échelle automatique et distribue du trafic à travers eux. Lorsque des instances sont ajoutées ou supprimées par échelle automatique, ELB ajuste automatiquement sa configuration pour inclure ou exclure ces instances, en s'assurant que le trafic est toujours dirigé vers des instances actives [9].

Comment fonctionne l'auto-échelle avec ELB dans Sagemaker

1. Surveillance de la charge de travail: SageMaker surveille les mesures de charge de travail telles que l'utilisation du processeur ou les demandes simultanées par instance. Si ces mesures dépassent les seuils prédéfinis, la politique de mise à l'échelle automatique est déclenchée [2] [3].

2. Actions de mise à l'échelle: Lorsque la charge de travail augmente, SageMaker s'étend en fournissant des instances supplémentaires. ELB enregistre automatiquement ces nouvelles instances et commence à leur distribuer du trafic. À l'inverse, lorsque la charge de travail diminue, SageMaker s'affronte en supprimant les instances inutiles et ELB redevient ces instances pour les empêcher de recevoir du trafic [2] [9].

3. Distribution du trafic: Tout au long de ce processus, ELB garantit que les demandes entrantes sont réparties efficacement dans les instances actives. Cela améliore non seulement les performances, mais aide également à maintenir une expérience utilisateur cohérente en minimisant les temps de réponse et en évitant les goulots d'étranglement [9].

4. Optimisation des coûts: en étendant les instances basées sur la demande réelle et en utilisant le ELB pour gérer la distribution du trafic, les organisations peuvent optimiser leurs coûts. Ils ne paient que les ressources qu'ils utilisent, réduisant les dépenses inutiles pendant les périodes de faible demande [3] [7].

En résumé, l'intégration de l'échelle automatique avec l'équilibrage de la charge élastique dans SageMaker fournit un moyen robuste et efficace de gérer les charges de travail d'inférence en temps réel. Il garantit que les ressources sont ajustées dynamiquement pour répondre aux demandes changeantes tout en maintenant des performances optimales et une rentabilité.

Citations:
[1] https://businesscompassllc.com/efficiently- managing-traffic-for-amazon-sagemaker-real-time-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/