Scalarea automată cu echilibrarea elastică a sarcinii (ELB) în Amazon Sagemaker implică ajustarea dinamică a numărului de instanțe bazate pe cerințele de volum de muncă, distribuind în mod eficient traficul de intrare în aceste cazuri. Iată o imagine de ansamblu detaliată a modului în care funcționează această integrare:
auto-scalare în sagemaker
Amazon Sagemaker acceptă auto-scalare pentru puncte finale în timp real, permițând sistemului să ajusteze dinamic numărul de instanțe furnizate pentru un model ca răspuns la modificările volumului de lucru de inferență [3] [7]. Această caracteristică asigură că resursele sunt optimizate prin extinderea în timpul orelor de vârf și scalarea în perioadele cu cerere scăzută, menținând astfel performanțe optime, reducând la minimum costurile [1] [3].
Sagemaker oferă mai multe opțiuni de scalare automată, inclusiv scalarea de urmărire a țintelor, scalarea pasului și scalarea programată. Scalarea de urmărire a țintelor este utilizată în mod obișnuit, în cazul în care setați o metrică țintă (de exemplu, utilizarea procesorului) și Sagemaker ajustează numărul de instanțe pentru a menține acea țintă [3] [5].
Integrare de echilibrare a sarcinii elastice (ELB)
În timp ce scalarea automată a SAGEMAKER se concentrează în principal pe ajustarea numărului de instanțe pe baza valorilor volumului de muncă, integrarea cu echilibrarea elastică a sarcinii îmbunătățește distribuția traficului în aceste cazuri. ELB se asigură că cererile de intrare sunt dirijate în mod optim către cazurile disponibile, îmbunătățind receptivitatea și reducând blocajele [9].
Într -o configurație tipică, ELB înregistrează cazuri într -un grup de scalare automată și distribuie trafic între ele. Când instanțele sunt adăugate sau eliminate prin scalare automată, ELB își ajustează automat configurația pentru a include sau exclude aceste instanțe, asigurându -se că traficul este întotdeauna direcționat către instanțe active [9].
Cum funcționează scalarea automată cu ELB în sagemaker
1. Monitorizarea volumului de muncă: SAGEMAKER monitorizează valorile volumului de muncă, cum ar fi utilizarea procesorului sau solicitări concomitente pe instanță. Dacă aceste valori depășesc pragurile predefinite, politica de scalare automată este declanșată [2] [3].
2. Acțiuni de scalare: Când volumul de muncă crește, Sagemaker se reduce prin furnizarea de instanțe suplimentare. ELB înregistrează automat aceste noi cazuri și începe să distribuie traficul lor. În schimb, atunci când volumul de muncă scade, sagemaker -ul scade prin eliminarea instanțelor inutile, iar ELB înregistrează aceste cazuri pentru a -i împiedica să primească trafic [2] [9].
3. Distribuția traficului: Pe parcursul acestui proces, ELB se asigură că cererile primite sunt distribuite eficient în instanțele active. Acest lucru nu numai că îmbunătățește performanța, dar ajută la menținerea unei experiențe consistente ale utilizatorului prin minimizarea timpilor de răspuns și evitarea blocajelor [9].
4. Optimizarea costurilor: Prin scalarea instanțelor bazate pe cererea reală și utilizarea ELB pentru a gestiona distribuția traficului, organizațiile își pot optimiza costurile. Aceștia plătesc doar resursele pe care le folosesc, reducând cheltuielile inutile în perioadele de cerere scăzută [3] [7].
În rezumat, integrarea scalării automate cu echilibrarea elastică a sarcinii în sagemaker oferă o modalitate robustă și eficientă de a gestiona sarcinile de lucru în timp real. Se asigură că resursele sunt ajustate dinamic pentru a răspunde cerințelor în schimbare, menținând în același timp performanțe optime și eficiența costurilor.
Citări:
[1] https://businesscompassllc.com/eficiently-Managing-traffic-for-amazon-sagemaker-real-time-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-AI-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/