Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Kaip automatinis maskavimas veikia su elastine apkrovos balansavimu „Sagemaker“


Kaip automatinis maskavimas veikia su elastine apkrovos balansavimu „Sagemaker“


Automatinis maskavimas su elastingo apkrovos balansavimu (ELB) „Amazon Sagemaker“ apima dinamiškai koreguoti egzempliorių skaičių, pagrįstą darbo krūvio poreikiais, tuo pačiu efektyviai paskirstant gaunamą srautą per šiuos egzempliorius. Čia yra išsami ši integracijos veikimo apžvalga:

Automatinis skandalas „Sagemaker“

„Amazon Sagemaker“ palaiko automatinį skonį realiojo laiko galiniams taškams, leisdama sistemai dinamiškai pakoreguoti modelio pateiktų egzempliorių skaičių, reaguojant į išvadų darbo krūvio pokyčius [3] [7]. Ši funkcija užtikrina, kad ištekliai būtų optimizuoti didinant piko valandas ir padidinant mažos paklausos laikotarpius, taip išlaikant optimalų našumą, tuo pačiu sumažinant išlaidas [1] [3].

„Sagemaker“ siūlo keletą automatinio mastelio parinkčių, įskaitant tikslinio stebėjimo mastelį, žingsnio mastelio keitimą ir suplanuotą mastelio keitimą. Paprastai naudojamas taikinio stebėjimo mastelio keitimas, kai nustatote tikslinę metriką (pvz., CPU panaudojimą), o „Sagemaker“ koreguoja egzempliorių skaičių, kad išlaikytų šį taikinį [3] [5].

elastinės apkrovos balansavimo (ELB) integracija

Nors „Sagemaker“ automatinis mastas daugiausia dėmesio skiria egzempliorių skaičiui, atsižvelgiant į darbo krūvio metriką, integruoti su elastinės apkrovos balansavimu padidina srauto pasiskirstymą šiais egzemplioriais. ELB užtikrina, kad gaunamos užklausos būtų optimaliai nukreiptos į turimus atvejus, pagerins reagavimą ir mažina kliūčių sritis [9].

Įprastoje sąrankoje ELB registruoja automatinio mastelio grupės egzempliorius ir platina srautą per juos. Kai egzemplioriai pridedami arba pašalinami automatiškai padidinant mastelį, ELB automatiškai sureguliuoja savo konfigūraciją, kad įtraukti arba neįtraukti į šiuos egzempliorius, užtikrinant, kad srautas visada būtų nukreiptas į aktyvius egzempliorius [9].

Kaip automatinis maskavimas veikia su ELB „Sagemaker“

1. Darbo krūvio stebėjimas: „SageMaker“ stebi darbo krūvio metriką, tokią kaip CPU panaudojimas arba lygiagrečios užklausos vienam egzemplioriui. Jei šios metrikos viršija iš anksto nustatytas slenksčius, suaktyvinama automatinio mastelio politika [2] [3].

2. Mastelio veiksmai: Padidėjus darbo krūviui, „Sagemaker“ padidėja pateikdamas papildomus egzempliorius. ELB automatiškai registruoja šiuos naujus egzempliorius ir pradeda paskirstyti srautą jiems. Ir atvirkščiai, kai sumažėja darbo krūvis, „Sagemaker“ padidėja pašalindamas nereikalingus atvejus, ir ELB panaikina šiuos atvejus, kad jie neleistų jiems gauti srauto [2] [9].

3. Eismo paskirstymas: Per šį procesą ELB užtikrina, kad gaunamos užklausos būtų veiksmingai paskirstytos aktyviose egzemplioriuose. Tai ne tik pagerina našumą, bet ir padeda išlaikyti nuoseklią vartotojo patirtį, sumažinant reagavimo laiką ir išvengiant kliūčių [9].

4. Išlaidų optimizavimas: mastelio keitimo egzemplioriai, pagrįsti faktine paklausa ir naudojant ELB eismo paskirstymui valdyti, organizacijos gali optimizuoti savo išlaidas. Jie moka tik už naudojamus išteklius, sumažindami nereikalingas išlaidas mažos paklausos laikotarpiais [3] [7].

Apibendrinant galima pasakyti, kad automatinio mastelio integracija su elastingo apkrovos balansavimu „Sagemaker“ suteikia patikimą ir efektyvų būdą valdyti realaus laiko išvadų darbo krūvius. Tai užtikrina, kad ištekliai būtų dinamiškai koreguojami, kad būtų patenkinti besikeičiantys reikalavimai, išlaikant optimalų našumą ir ekonomiškumą.

Citatos:
[1] https://businesscompasllc.com/efficent-Managing-sagfic-for-amazon-sagemaker-real-endpoints-with-autoscing-and-xgboost/
[2] https://randomtrees.com/blog/auto-caling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deploardments-with-auto-scaling-on-mazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebxw/sagemaker-inference-recomendation
[5] https://www.restack.io/p/realmetime-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-caling-policy-work-with-sagemaker-endoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-caling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-caling-policy.html
[9] https://jayendrapatil.com/aws-auto-caling-elb/