Auto-skalering med elastisk belastningsbalansering (ELB) i Amazon Sagemaker innebærer dynamisk å justere antall forekomster basert på krav om arbeidsmengde, mens den effektivt distribuerer innkommende trafikk i disse tilfellene. Her er en detaljert oversikt over hvordan denne integrasjonen fungerer:
Auto-skalering i Sagemaker
Amazon Sagemaker støtter auto-skalering for sluttpunkter i sanntid, slik at systemet dynamisk kan justere antall forekomster som er levert for en modell som svar på endringer i inferensens arbeidsmengde [3] [7]. Denne funksjonen sikrer at ressursene optimaliseres ved å skalere ut i høysesiden og skalere inn i løpet av lavt etterspørsel, og dermed opprettholde optimal ytelse mens den minimerer kostnadene [1] [3].
Sagemaker tilbyr flere alternativer for automatisk skalering, inkludert skalering av målsporing, trinnskalering og planlagt skalering. Målsporingsskalering brukes ofte, hvor du setter en målmetrikk (f.eks. CPU -bruk) og Sagemaker justerer forekomsttallet for å opprettholde dette målet [3] [5].
Elastisk belastningsbalansering (ELB) integrasjon
Mens Sagemakers auto-skalering først og fremst fokuserer på å justere forekomst-teller basert på arbeidsmengde-beregninger, forbedrer det å integrere med elastisk belastningsbalansering fordelingen av trafikken i disse tilfellene. ELB sikrer at innkommende forespørsler blir optimalt dirigert til tilgjengelige forekomster, forbedrer responsen og reduserer flaskehalser [9].
I et typisk oppsett registrerer ELB forekomster i en bilskaleringsgruppe og distribuerer trafikk over dem. Når forekomster legges til eller fjernes ved automatisk skalering, justerer ELB automatisk konfigurasjonen til å inkludere eller ekskludere disse forekomstene, og sikrer at trafikken alltid er rettet til aktive forekomster [9].
hvordan automatisk skalering fungerer med ELB i Sagemaker
1. Overvåking av arbeidsmengde: Sagemaker overvåker arbeidsmengde -beregninger som CPU -bruk eller samtidig forespørsler per forekomst. Hvis disse beregningene overskrider forhåndsdefinerte terskler, utløses auto-skaleringspolitikken [2] [3].
2. Skaleringshandlinger: Når arbeidsmengden øker, skalerer Sagemaker ut ved å levere flere forekomster. ELB registrerer automatisk disse nye forekomstene og begynner å dele ut trafikk til dem. Motsatt, når arbeidsmengden avtar, skalerer Sagemaker ved å fjerne unødvendige tilfeller, og Elb deregere disse tilfellene for å forhindre at de mottar trafikk [2] [9].
3. Trafikkdistribusjon: Gjennom denne prosessen sikrer ELB at innkommende forespørsler er effektivt distribuert over de aktive forekomstene. Dette forbedrer ikke bare ytelsen, men hjelper også med å opprettholde en jevn brukeropplevelse ved å minimere responstider og unngå flaskehalser [9].
4. Kostnadsoptimalisering: Ved å skalere forekomster basert på faktisk etterspørsel og bruk av ELB for å administrere trafikkdistribusjon, kan organisasjoner optimalisere kostnadene. De betaler bare for ressursene de bruker, og reduserer unødvendige utgifter i perioder med lav etterspørsel [3] [7].
Oppsummert gir integrasjonen av automatisk skalering med elastisk belastningsbalansering hos Sagemaker en robust og effektiv måte å håndtere arbeidsmengder i sanntid. Det sikrer at ressursene er dynamisk justert for å oppfylle endrede krav samtidig som den opprettholder optimal ytelse og kostnadseffektivitet.
Sitasjoner:
[1] https://businesscompassllc.com/efficiently-managing-traffic-for-azon-sagemaker-real-time-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-caling-for-generative-ai-models-with-azon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-læring/optimize-your-machine-learning-deployments-with-auto-scaling-on-azon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebxw/sagemaker-inferens-recommendation
[5] https://www.restack.io/p/real-time-ai-inference-hanswer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-caling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-caling-elb/