Automātiskā mērogošana ar elastīgās slodzes līdzsvarošanu (ELB) Amazon Sagemaker ietver dinamisku gadījumu skaita pielāgošanu, pamatojoties uz darba slodzes prasībām, vienlaikus efektīvi sadalot ienākošo trafiku šajos gadījumos. Šeit ir detalizēts pārskats par šo integrāciju:
automātiskā mērogošana Sagemaker
Amazon Sagemaker atbalsta automātisko mērogošanu reālā laika parametriem, ļaujot sistēmai dinamiski pielāgot modelim nodrošināto gadījumu skaitu, reaģējot uz izmaiņām secinājumu darba slodzē [3] [7]. Šī funkcija nodrošina, ka resursi tiek optimizēti, palielinot maksimālo stundu laikā un palielinot zemu pieprasījumu periodos, tādējādi saglabājot optimālu veiktspēju, vienlaikus samazinot izmaksas [1] [3].
Sagemaker piedāvā vairākas automātiskās mērogošanas iespējas, ieskaitot mērķa izsekošanas mērogošanu, pakāpienu mērogošanu un plānotu mērogošanu. Mērķa izsekošanas mērogošana parasti tiek izmantota, ja jūs iestatāt mērķa metriku (piemēram, CPU izmantošanu), un Sagemaker pielāgo instanču skaitu, lai saglabātu šo mērķi [3] [5].
Elastīgās slodzes līdzsvarošanas (ELB) integrācija
Kaut arī Sagemaker automātiskā mērogošana galvenokārt koncentrējas uz instanču skaita pielāgošanu, pamatojoties uz darba slodzes metriku, integrēšana ar elastīgās slodzes līdzsvarošanu uzlabo trafika sadalījumu šajos gadījumos. ELB nodrošina, ka ienākošie pieprasījumi tiek optimāli novirzīti uz pieejamiem gadījumiem, uzlabojot atsaucību un samazinot sašaurinājumu [9].
Tipiskā iestatījumā ELB reģistrē gadījumus auto mērogošanas grupā un izplata trafiku pa tām. Ja gadījumi tiek pievienoti vai noņemti, automātiski mērogojot, ELB automātiski pielāgo tā konfigurāciju, lai iekļautu vai izslēgtu šos gadījumus, nodrošinot, ka satiksme vienmēr tiek novirzīta uz aktīviem gadījumiem [9].
Kā automātiskā mērogošana darbojas ar elbu Sagemakerā
1. Darba slodzes uzraudzība: Sagemaker uzrauga darba slodzes metriku, piemēram, CPU izmantošanu vai vienlaicīgus pieprasījumus vienā gadījumā. Ja šie metrika pārsniedz iepriekš noteiktus sliekšņus, tiek aktivizēta automātiskā mēroga politika [2] [3].
2. Mērogošanas darbības: Kad darba slodze palielinās, Sagemaker iziet, nodrošinot papildu gadījumus. ELB automātiski reģistrē šos jaunos gadījumus un sāk izplatīt viņiem trafiku. Un otrādi, kad darba slodze samazinās, Sagemaker samazinās, noņemot nevajadzīgus gadījumus, un atgūst šos gadījumus, lai neļautu viņiem saņemt satiksmi [2] [9].
3. Satiksmes sadalījums: Visā šajā procesā ELB nodrošina, ka ienākošie pieprasījumi tiek efektīvi sadalīti visos aktīvos gadījumos. Tas ne tikai uzlabo veiktspēju, bet arī palīdz saglabāt konsekventu lietotāja pieredzi, samazinot reakcijas laiku un izvairoties no sašaurinājumiem [9].
4. Izmaksu optimizācija: mērogojot gadījumus, kas balstīti uz faktisko pieprasījumu un izmantojot ELB, lai pārvaldītu satiksmes izplatīšanu, organizācijas var optimizēt savas izmaksas. Viņi maksā tikai par izmantotajiem resursiem, samazinot nevajadzīgus izdevumus zema pieprasījuma periodos [3] [7].
Rezumējot, automātiskās mērogošanas integrācija ar elastīgās slodzes līdzsvarošanu Sagemaker nodrošina stabilu un efektīvu veidu, kā pārvaldīt reālā laika secinājumu slodzi. Tas nodrošina, ka resursi tiek dinamiski pielāgoti, lai apmierinātu mainīgās prasības, vienlaikus saglabājot optimālu veiktspēju un izmaksu efektivitāti.
Atsauces:
[1.]
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deplessments-with-uto-scaling-on-amazon-sagemaker/
[4.]
[5] https://www.restack.io/p/real-ime-ai-inerence-answer-sagemaker-utoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-ato-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-uto-scaling-policy.html
[9] https://jayendrapatil.com/aws-uto-scaling-elb/