Automatické rozsahy s elastickým vyvážením záťaže (ELB) v Amazon Sagemaker

Automatické rozsahy s elastickým vyrovnávaním záťaže (ELB) v Amazon Sagemaker zahŕňa dynamické úpravu počtu inštancií založených na požiadavkách na pracovné zaťaženie a zároveň efektívne rozdeľuje prichádzajúci prenos v týchto prípadoch. Tu je podrobný prehľad o tom, ako táto integrácia funguje:

Automatické rozsahy v Sagemake

Amazon Sagemaker podporuje automatické rozsahy pre koncové body v reálnom čase, čo systému umožňuje dynamicky upravovať počet inštancií poskytnutých pre model v reakcii na zmeny v inferenčnej pracovnej záťaži [3] [7]. Táto vlastnosť zaisťuje, že zdroje sú optimalizované škálovaním počas špičkových hodín a škálovaním počas období s nízkym dopytom, čím sa zachová optimálny výkon a zároveň minimalizuje náklady [1] [3].

Sagemaker ponúka niekoľko možností automatického rozsahu, vrátane škálovania sledovania cieľov, škálovania krokov a plánovaného škálovania. Bežne sa používa škálovanie sledovania cieľov, kde nastavíte cieľovú metriku (napr. Využitie CPU) a Sagemaker upravuje počet inštancií tak, aby sa udržal tento cieľ [3] [5].

Elastic Balancing (ELB) integrácia

Zatiaľ čo automatické rozsahy Sagemaker sa primárne zameriava na úpravy počtu inštancií na základe metriky pracovnej záťaže, integrácia s elastickým vyrovnávaním záťaže zvyšuje distribúciu prenosu v týchto prípadoch. ELB zaisťuje, že prichádzajúce žiadosti sú optimálne smerované do dostupných inštancií, zlepšujú citlivosť a znižujú prekážky [9].

V typickom nastavení registruje ELB inštancie v skupine s automatickým škálovaním a distribuuje prenos medzi nimi. Ak sa inštancie pridávajú alebo odstránia automatickým škálovaním, spoločnosť ELB automaticky upraví svoju konfiguráciu tak, aby zahŕňala alebo vylúčila tieto inštancie, čím sa zabezpečí, že prevádzka je vždy nasmerovaná na aktívne inštancie [9].

Ako automatické rozsahy funguje s ELB v Sagemake

1. Monitorovanie pracovného zaťaženia: Sagemaker monitoruje metriky pracovného zaťaženia, ako je využitie CPU alebo súbežné požiadavky na inštanciu. Ak tieto metriky prekročia preddefinované prahové hodnoty, spustí sa politika automatického rozsahu [2] [3].

2. Škálovacie akcie: Keď sa pracovné zaťaženie zvyšuje, Sagemaker sa zmení na poskytnutie ďalších inštancií. ELB automaticky zaregistruje tieto nové inštancie a začína im distribuovať prenos. Naopak, keď sa pracovné zaťaženie znižuje, Sagemaker sa zmení odstránením nepotrebných prípadov a ELB degisters týchto prípadov zabránil pri prijímaní prenosu [2] [9].

3. Distribúcia premávky: Počas tohto procesu ELB zaisťuje, že prichádzajúce požiadavky sú efektívne rozdelené do aktívnych inštancií. To nielen zvyšuje výkon, ale tiež pomáha udržiavať konzistentný užívateľský zážitok minimalizáciou časov odozvy a vyhýbaním sa prekážkam [9].

4. Optimalizácia nákladov: Škálovaním inštancií založených na skutočnom dopyte a použití ELB na riadenie distribúcie dopravy môžu organizácie optimalizovať svoje náklady. Platia iba za zdroje, ktoré používajú, a znižujú zbytočné výdavky počas období nízkeho dopytu [3] [7].

Stručne povedané, integrácia automatického rozsahu s elastickým vyrovnávaním záťaže v Sagemaker poskytuje robustný a efektívny spôsob riadenia inferencie v reálnom čase. Zaisťuje, že zdroje sa dynamicky upravujú tak, aby splnili meniace sa požiadavky a zároveň zachovali optimálny výkon a nákladovú efektívnosť.

Citácie:
[1] https://businesscompassllc.com/effically-manging-traffic-for-amazon-sagemaker-real-me-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-remendácia
[5] https://www.restack.io/p/Real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/

Ako funguje automatické rozsahy s elastickým vyrovnávaním záťaže na Sagemaker

Automatické rozsahy v Sagemake

Elastic Balancing (ELB) integrácia

Ako automatické rozsahy funguje s ELB v Sagemake