Auto-skalering med elastisk belastningsbalancering (ELB) i Amazon Sagemaker involverer dynamisk at justere antallet af forekomster baseret på arbejdsbelastningskrav, mens den effektivt distribuerer indgående trafik på tværs af disse tilfælde. Her er en detaljeret oversigt over, hvordan denne integration fungerer:
Auto-skalering i Sagemaker
Amazon Sagemaker understøtter automatisk skalering til realtidsendepunkter, hvilket giver systemet mulighed for dynamisk at justere antallet af forekomster, der er tilvejebragt til en model som svar på ændringer i inferensens arbejdsbyrde [3] [7]. Denne funktion sikrer, at ressourcer optimeres ved at skalere ud i spidsbelastningen og skalere ind i perioder med lav efterspørgsel og derved opretholde optimal ydelse, mens de minimerer omkostningerne [1] [3].
Sagemaker tilbyder flere auto-skaleringsmuligheder, herunder målsporingsskalering, trinskalering og planlagt skalering. Målsporingsskalering bruges ofte, hvor du indstiller en målmetrisk (f.eks. CPU -anvendelse), og Sagemaker justerer forekomstantallet for at opretholde dette mål [3] [5].
Elastisk belastningsbalancering (ELB) integration
Mens Sagemakers auto-skalering primært fokuserer på at justere forekomsttællinger baseret på arbejdsbelastningsmetrik, forbedrer det at integrere med elastisk belastningsbalancering fordelingen af trafik på tværs af disse tilfælde. ELB sikrer, at indgående anmodninger er optimalt dirigeret til tilgængelige tilfælde, forbedring af lydhørhed og reduktion af flaskehalse [9].
I en typisk opsætning registrerer ELB -forekomster i en automatisk skaleringsgruppe og distribuerer trafik over dem. Når forekomster tilføjes eller fjernes ved automatisk skalering, justerer ELB automatisk dens konfiguration til at omfatte eller udelukke disse tilfælde, hvilket sikrer, at trafik altid rettes til aktive tilfælde [9].
Hvordan auto-skalering fungerer med ELB i sagemaker
1. Overvågning af arbejdsbelastning: Sagemaker overvåger Metrics Workboad Metrics såsom CPU -udnyttelse eller samtidige anmodninger pr. Instans. Hvis disse målinger overstiger foruddefinerede tærskler, udløses auto-skaleringspolitikken [2] [3].
2. skaleringshandlinger: Når arbejdsbyrden stiger, skalerer Sagemaker ud ved at give yderligere tilfælde. ELB registrerer automatisk disse nye tilfælde og begynder at distribuere trafik til dem. Omvendt, når arbejdsbyrden falder, skalerer sagemaker ind ved at fjerne unødvendige tilfælde, og ELB deregisters disse tilfælde for at forhindre dem i at modtage trafik [2] [9].
3. trafikfordeling: I hele denne proces sikrer ELB, at indgående anmodninger er effektivt fordelt over de aktive tilfælde. Dette forbedrer ikke kun ydelsen, men hjælper også med at opretholde en konsekvent brugeroplevelse ved at minimere responstider og undgå flaskehalse [9].
4. Omkostningsoptimering: Ved skalering af forekomster, der er baseret på faktisk efterspørgsel og ved hjælp af ELB til at styre trafikfordeling, kan organisationer optimere deres omkostninger. De betaler kun for de ressourcer, de bruger, hvilket reducerer unødvendige udgifter i perioder med lav efterspørgsel [3] [7].
Sammenfattende giver integrationen af auto-skalering med elastisk belastningsbalancering i Sagemaker en robust og effektiv måde at styre realtids inferens arbejdsbelastninger på. Det sikrer, at ressourcerne dynamisk justeres for at imødekomme ændrede krav, mens de opretholder optimal ydelse og omkostningseffektivitet.
Citater:
[Jeg
[2] https://randomtrees.com/blog/auto-scaling-for-generative-i-models-with-amazon-aGemaker/
)
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-time-i-inference-swer-agemaker-autoscaling-cat-i
[6] https://stackoverflow.com/questions/71344215/how-does-saling-policy-work-with-aGemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/