Automatické měřítko s elastickým vyrovnáváním zatížení (ELB) v Amazon SageMaker zahrnuje dynamické úpravy počtu instancí založených na požadavcích na pracovní vytížení a zároveň efektivně distribuovat příchozí provoz v těchto případech. Zde je podrobný přehled o tom, jak tato integrace funguje:
Auto-Scaling in SageMaker
Amazon SageMaker podporuje automatické měřítko pro koncové body v reálném čase, což umožňuje systému dynamicky upravit počet instancí poskytovaných pro model v reakci na změny v inferenčním pracovním vytížení [3] [7]. Tato funkce zajišťuje, že zdroje jsou optimalizovány škálováním během špičkových hodin a škálováním v období nízkého poptávky, čímž si udržují optimální výkon a zároveň minimalizují náklady [1] [3].
Společnost SageMaker nabízí několik možností automatického škálování, včetně měřítka sledování cílů, škálování kroků a plánovaného škálování. Obvykle se používá škálování sledování cíle, kde nastavíte cílovou metriku (např. Využití CPU) a SageMaker upravuje počet instancí, aby udržel tento cíl [3] [5].
Integrace elastického vyrovnávání zátěže (ELB)
Zatímco automatické měřítko SageMaker se primárně zaměřuje na úpravu počtu instancí na základě metrik pracovního vytížení, integrace s elastickým vyrovnáváním zátěže zvyšuje distribuci provozu v těchto případech. ELB zajišťuje, že příchozí žádosti jsou optimálně směrovány do dostupných instancí, zlepšují citlivost a snižují úzká místa [9].
V typickém nastavení registruje ELB instance ve skupině s automatické škálování a distribuuje provoz přes ně. Pokud jsou instance přidány nebo odstraněny automaticky škálováním, ELB automaticky upraví svou konfiguraci tak, aby zahrnovala nebo vyloučila tyto instance, což zajišťuje, že provoz je vždy zaměřen na aktivní instance [9].
Jak automatické scaling funguje s ELB v SageMaker
1. Monitorování pracovní zátěže: SAGEMaker Monitoruje metriky pracovního vytížení, jako je využití CPU nebo souběžné požadavky na instanci. Pokud tyto metriky přesahují předdefinované prahové hodnoty, je spuštěna politika automatického škálování [2] [3].
2. Akce škálování: Když se pracovní zátěž zvýší, SAGEMAKER se zmenšuje poskytováním dalších instancí. ELB automaticky registruje tyto nové instance a začne jim distribuovat provoz. Naopak, když se pracovní zátěž snižuje, SageMaker se upravuje odstraněním zbytečných případů a ELB deregisters tyto případy, aby jim zabránil v přijímání provozu [2] [9].
3. Distribuce provozu: Během tohoto procesu ELB zajišťuje, že příchozí požadavky jsou efektivně distribuovány v aktivních případech. To nejen zvyšuje výkon, ale také pomáhá udržovat konzistentní uživatelský zážitek minimalizací doby odezvy a vyhýbáním se úzkým místem [9].
4. Optimalizace nákladů: Upravením instancí na základě skutečné poptávky a pomocí ELB k řízení distribuce provozu mohou organizace optimalizovat své náklady. Platí pouze za zdroje, které používají, a snižují zbytečné výdaje během období nízké poptávky [3] [7].
Stručně řečeno, integrace automatického měřítka s elastickým vyrovnáváním zátěže v SageMaker poskytuje robustní a efektivní způsob, jak spravovat pracovní zatížení v reálném čase. Zajišťuje, že zdroje jsou dynamicky upraveny tak, aby splňovaly měnící se požadavky při zachování optimálního výkonu a efektivity nákladu.
Citace:
[1] https://businesscompasslc.com/effectly-anaging-doraffic-for-amazon-sagemaker-real-time-endpoints-with-atoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recomimendation
[5] https://www.restack.io/p/real- Time-ai-inference-answer-sagemaker-atoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/