Автоматичне масштабування з еластичним балансуванням навантаження (ELB) в Amazon Sagemaker включає динамічне регулювання кількості екземплярів на основі потреб у робочому навантаженні, ефективно розподіляючи вхідний трафік у цих випадках. Ось детальний огляд того, як працює ця інтеграція:
Автоматичне масштабування в Сагемікер
Amazon Sagemaker підтримує автоматичне масштабування для кінцевих точок в режимі реального часу, що дозволяє системі динамічно регулювати кількість екземплярів, що надаються для моделі у відповідь на зміни навантаження на висновку [3] [7]. Ця функція забезпечує оптимізацію ресурсів шляхом масштабування в пікові години та масштабування в періоди з низьким попитом, тим самим зберігаючи оптимальні показники, при цьому мінімізуючи витрати [1] [3].
Sagemaker пропонує кілька варіантів автоматичного масштабування, включаючи масштабування відстеження цілей, масштабування кроків та заплановане масштабування. Масштабування цільового відстеження зазвичай використовується, де ви встановлюєте цільовий показник (наприклад, використання процесора), а Sagemaker регулює кількість екземплярів, щоб підтримувати цю ціль [3] [5].
Еластична збалансування навантаження (ELB) Інтеграція
Хоча автоматичне масштабування Sagemaker в основному фокусується на коригуванні підрахунків екземплярів на основі показників навантаження, інтеграція з еластичним балансуванням навантаження підвищує розподіл трафіку в цих випадках. ELB гарантує, що вхідні запити будуть оптимально направлені до наявних екземплярів, покращуючи чуйність та зменшуючи вузькі місця [9].
У типовому налаштуванні ELB реєструє екземпляри в групі автоматичного масштабування та розповсюджує трафік через них. Коли екземпляри додаються або видаляються шляхом автоматичного масштабування, ELB автоматично регулює свою конфігурацію, щоб включити або виключити ці екземпляри, гарантуючи, що трафік завжди спрямований на активні екземпляри [9].
Як працює автоматичне масштабування з ELB в SageMaker
1. Моніторинг робочого навантаження: Sagemaker моніторить показники робочого навантаження, такі як використання процесора або одночасні запити. Якщо ці показники перевищують заздалегідь визначені пороги, політика автоматичного масштабування запускається [2] [3].
2. Дії масштабування: Коли навантаження збільшується, SageMaker масштабується за допомогою додаткових випадків. ELB автоматично реєструє ці нові екземпляри і починає розподіляти трафік на них. І навпаки, коли навантаження зменшується, Sagemaker масштабується шляхом видалення непотрібних випадків, і ELB переробляє ці випадки, щоб запобігти їм приймати трафік [2] [9].
3. Розподіл трафіку: Протягом цього процесу ELB гарантує, що вхідні запити ефективно розподіляються в активних випадках. Це не тільки підвищує продуктивність, але й допомагає підтримувати постійний досвід користувачів, мінімізуючи час відгуку та уникаючи вузьких місць [9].
4. Оптимізація витрат: Масштабуванням екземплярів на основі фактичного попиту та використання ELB для управління розподілом трафіку організації можуть оптимізувати свої витрати. Вони платять лише за ресурси, які вони використовують, зменшуючи непотрібні витрати в періоди низького попиту [3] [7].
Підсумовуючи це, інтеграція автоматичного масштабування з еластичним балансуванням навантаження в Sagemaker забезпечує надійний та ефективний спосіб управління навантаженнями на виходи в режимі реального часу. Це гарантує, що ресурси динамічно коригуються, щоб задовольнити зміни потреб, зберігаючи оптимальні показники та економічні кошти.
Цитати:
[1] https://businesscompassllc.com/feficly-managing-traffic-for-amazon-sagemaker-real-time-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/