La escala automática con equilibrio de carga elástica (ELB) en Amazon Sagemaker implica ajustar dinámicamente el número de instancias en función de las demandas de la carga de trabajo mientras distribuye eficientemente el tráfico entrante en estas instancias. Aquí hay una descripción detallada de cómo funciona esta integración:
Auto-escalado en Sagemaker
Amazon Sagemaker admite escala automática para puntos finales en tiempo real, lo que permite que el sistema ajuste dinámicamente el número de instancias aprovisionadas para un modelo en respuesta a los cambios en la carga de trabajo de inferencia [3] [7]. Esta característica asegura que los recursos se optimicen al escalar durante las horas pico y la escala durante los períodos de baja demanda, manteniendo así un rendimiento óptimo al tiempo que minimiza los costos [1] [3].
Sagemaker ofrece varias opciones de escala automática, incluida la escala de seguimiento de objetivos, la escala de pasos y la escala programada. La escala de seguimiento de objetivos se usa comúnmente, donde establece una métrica de destino (por ejemplo, utilización de la CPU) y Sagemaker ajusta el recuento de instancias para mantener ese objetivo [3] [5].
Integración de equilibrio de carga elástica (ELB)
Mientras que la escala automática de Sagemaker se enfoca principalmente en ajustar los recuentos de instancias basados en métricas de carga de trabajo, la integración con el equilibrio elástico de carga mejora la distribución del tráfico en estas instancias. ELB asegura que las solicitudes entrantes se enruten de manera óptima a las instancias disponibles, mejorando la capacidad de respuesta y reduciendo los cuellos de botella [9].
En una configuración típica, ELB registra instancias en un grupo de escala automática y distribuye el tráfico a través de ellos. Cuando las instancias se agregan o eliminan mediante escala automática, ELB ajusta automáticamente su configuración para incluir o excluir estas instancias, asegurando que el tráfico siempre esté dirigido a instancias activas [9].
Cómo funciona el autoescalado con los Elb en Sagemaker
1. Monitoreo de carga de trabajo: Sagemaker monitorea métricas de carga de trabajo, como la utilización de la CPU o las solicitudes concurrentes por instancia. Si estas métricas exceden los umbrales predefinidos, la política de escala automática se desencadena [2] [3].
2. Acciones de escala: cuando aumenta la carga de trabajo, Sagemaker se escala mediante la aprovisionamiento de instancias adicionales. ELB registra automáticamente estas nuevas instancias y comienza a distribuirles el tráfico. Por el contrario, cuando la carga de trabajo disminuye, Sagemaker se escala eliminando instancias innecesarias, y el ELB desregistra estas instancias para evitar que reciban tráfico [2] [9].
3. Distribución del tráfico: a lo largo de este proceso, el ELB asegura que las solicitudes entrantes se distribuyan de manera eficiente en las instancias activas. Esto no solo mejora el rendimiento, sino que también ayuda a mantener una experiencia de usuario consistente minimizando los tiempos de respuesta y evitando los cuellos de botella [9].
4. Optimización de costos: al escalar instancias basadas en la demanda real y el uso de ELB para gestionar la distribución del tráfico, las organizaciones pueden optimizar sus costos. Solo pagan por los recursos que usan, reduciendo los gastos innecesarios durante los períodos de baja demanda [3] [7].
En resumen, la integración del autoescalado con equilibrio de carga elástica en Sagemaker proporciona una forma robusta y eficiente de gestionar cargas de trabajo de inferencia en tiempo real. Asegura que los recursos se ajusten dinámicamente para satisfacer las demandas cambiantes al tiempo que mantienen un rendimiento óptimo y una eficiencia de rentabilidad.
Citas:
[1] https://businesscompaspsllc.com/eficently-genering-traftic-for-amazon-sagemaker-real-time-dpoints-with-autoScaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-letarning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnosln4ebrxw/sagemaker-inference-regommendation
[5] https://www.restack.io/p/real-time-ai-inference-uswer-sagemaker-autocaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/