Samodejno skaliranje z uravnoteženjem elastične obremenitve (ELB) v Amazon SageMakerju vključuje dinamično prilagajanje števila primerkov na podlagi zahtev za delovno obremenitev, hkrati pa učinkovito distribuiranje dohodnega prometa v teh primerih. Tu je podroben pregled, kako deluje ta integracija:
Auto-Scaling v SageMakerju
Amazon SageMaker podpira samodejno preseganje končnih točk v realnem času, kar omogoča sistemu, da dinamično prilagodi število primerkov, predvidenih za model kot odgovor na spremembe v delovni obremenitvi [3] [7]. Ta funkcija zagotavlja, da se sredstva optimizirajo tako, da se v času največjih ur in skalirajo v obdobjih z nizkim povpraševanjem, s čimer ohranjajo optimalne zmogljivosti, hkrati pa zmanjšajo stroške [1] [3].
SageMaker ponuja več možnosti samodejnega vrednosti, vključno z skaliranjem ciljnega sledenja, skaliranjem korakov in načrtovanim skaliranjem. Običajno se uporablja ciljno skaliranje sledenja, kjer nastavite ciljno metriko (npr. Uporaba CPU -ja), SageMaker pa prilagodi število primerov, da ohrani ta cilj [3] [5].
Integracija uravnoteženja obremenitve (ELB)
Medtem ko se SageMakerjeva samodejna lestvica osredotoča predvsem na prilagajanje števila primerov na podlagi meritev delovne obremenitve, integracija z uravnoteženjem elastične obremenitve povečuje porazdelitev prometa v teh primerih. ELB zagotavlja, da so dohodne zahteve optimalno usmerjene na razpoložljive primere, izboljšajo odzivnost in zmanjšajo ozka grla [9].
V tipični nastavitvi ELB registrira primere v skupini za samodejno skaliranje in distribuira promet po njih. Ko se samodejno skalirajo ali odstranijo primere, ELB samodejno prilagodi svojo konfiguracijo, da vključi ali izključi te primere, pri čemer zagotavlja, da je promet vedno usmerjen v aktivne primere [9].
Kako deluje samodejno skaliranje z ELB v SageMakerju
1. spremljanje delovne obremenitve: SageMaker spremlja meritve delovne obremenitve, kot so uporaba CPU -ja ali sočasne zahteve na primer. Če te meritve presegajo vnaprej določene pragove, se sproži politika samodejnega vrednosti [2] [3].
2. Ukrepi za skaliranje: Ko se delovna obremenitev poveča, SageMaker odteče z zagotavljanjem dodatnih primerov. ELB samodejno registrira te nove primere in jim začne distribuirati promet. Ko se delovna obremenitev zmanjšuje, SageMaker doseže, tako da odstrani nepotrebne primere, ELB pa te primere, da prepreči prejemanje prometa [2] [9].
3. Porazdelitev prometa: ELB v tem postopku zagotavlja, da se dohodne zahteve učinkovito porazdelijo v aktivnih primerih. To ne samo povečuje zmogljivost, ampak tudi pomaga ohranjati dosledno uporabniško izkušnjo z zmanjšanjem odzivnih časov in preprečevanjem ozkih grl [9].
4. Optimizacija stroškov: Z zmanjšanjem primerov, ki temeljijo na dejanskem povpraševanju in uporabi ELB za upravljanje distribucije prometa, lahko organizacije optimizirajo njihove stroške. Plačajo le vire, ki jih uporabljajo, zmanjšajo nepotrebne stroške v obdobjih majhnega povpraševanja [3] [7].
Če povzamemo, integracija samodejnega presejanja z uravnoteženjem elastične obremenitve v SageMakerju zagotavlja močan in učinkovit način za upravljanje delovnih obremenitev v realnem času. Zagotavlja, da so sredstva dinamično prilagojena tako, da ustrezajo spreminjajočim se zahtevam, hkrati pa ohranjajo optimalno uspešnost in stroškovno učinkovitost.
Navedbe:
[1] https://businessComPassllc.com/effitly-maning-traffic-for-amazon-sagemaker-real-time-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-loarning/optimize-your-machine-loarning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/Qudpxlldhzs1gnasln4ebrxw/sageMaker-inference-reComventation
[5] https://www.restack.io/p/real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-ward-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/