Автоматическая масштаба с упругой балансировкой нагрузки (ELB) в Amazon SageMaker включает в себя динамическую корректировку количества экземпляров, основанных на требованиях рабочей нагрузки, в то же время эффективно распределяя входящий трафик по этим экземплярам. Вот подробный обзор того, как работает эта интеграция:
Автоматическая масштаба в Sagemaker
Amazon SageMaker поддерживает автоматическое масштаб для конечных точек в реальном времени, позволяя системе динамически регулировать количество экземпляров, предоставляемых для модели в ответ на изменения в рабочей нагрузке вывода [3] [7]. Эта функция гарантирует, что ресурсы оптимизируются путем масштабирования в часы пик и масштабирования в течение периодов с низким спросом, тем самым сохраняя оптимальную производительность при минимизации затрат [1] [3].
SageMaker предлагает несколько параметров автоматического масштаба, включая масштабирование отслеживания целей, масштабирование шага и запланированное масштабирование. Обычно используется масштабирование отслеживания целей, где вы устанавливаете целевую метрику (например, использование ЦП), а SageMaker корректирует количество экземпляров для поддержания этой цели [3] [5].
Упругая балансировка нагрузки (ELB) интеграция
В то время как автоматическая масштаба SageMaker в первую очередь фокусируется на корректировке количества экземпляров на основе метрик рабочей нагрузки, интеграция с упругой балансировкой нагрузки увеличивает распределение трафика в этих случаях. ELB гарантирует, что входящие запросы оптимально направляются на доступные экземпляры, улучшая отзывчивость и уменьшая узкие места [9].
В типичной установке ELB регистрирует экземпляры в группе автоматического масштабирования и распределяет трафик через них. Когда экземпляры добавляются или удаляются с помощью автоматического масштабирования, ELB автоматически регулирует свою конфигурацию, чтобы включить или исключить эти экземпляры, обеспечивая, чтобы трафик всегда был направлен на активные экземпляры [9].
Как работает автоматическая масштаба с ELB в SageMaker
1. Мониторинг рабочей нагрузки: SAGEMAKER контролирует метрики рабочей нагрузки, такие как использование ЦП или параллельные запросы на экземпляр. Если эти метрики превышают предопределенные пороговые значения, политика автоматического масштаба запускается [2] [3].
2. Масштабирование действий: Когда рабочая нагрузка увеличивается, SageMaker расширяется, предоставляя дополнительные экземпляры. ELB автоматически регистрирует эти новые экземпляры и начинает распространять их трафик. И наоборот, когда рабочая нагрузка уменьшается, SageMaker расширяется, удаляя ненужные экземпляры, и эти экземпляры ELB в эти экземпляры, чтобы они не получали трафик [2] [9].
3. Распределение трафика: на протяжении всего этого процесса ELB гарантирует, что входящие запросы эффективно распределены по активным экземплярам. Это не только повышает производительность, но и помогает поддерживать постоянный пользовательский опыт, минимизируя время отклика и избегая узких мест [9].
4. Оптимизация затрат: масштабируя экземпляры на основе фактического спроса и использования ELB для управления распределением трафика, организации могут оптимизировать свои затраты. Они платят только за ресурсы, которые они используют, сокращая ненужные расходы в периоды низкого спроса [3] [7].
Таким образом, интеграция автоматической масштабы с упругой балансировкой нагрузки в SageMaker обеспечивает надежный и эффективный способ управления рабочими нагрузками в режиме реального времени. Это гарантирует, что ресурсы динамически скорректированы для удовлетворения изменяющихся требований при сохранении оптимальной производительности и эффективности затрат.
Цитаты:
[1] https://businesscompassllc.com/effiverly-daging-traffic-for-amazon-sagemaker-real-time-endpoints-with-autoscaling и xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-генератива-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-caling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-ime-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-caling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-caling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/