Az Amazon Sagemakerben az elasztikus terheléselosztással (ELB) az automatikus méretezés magában foglalja a munkaterhelés-igények alapján az példányok számának dinamikus kiigazítását, miközben hatékonyan elosztja a bejövő forgalmat ezen példányok között. Itt található egy részletes áttekintés arról, hogyan működik ez az integráció:
Automatikus méretezés a sagemakerben
Az Amazon Sagemaker támogatja a valós idejű végpontok automatikus méretezését, lehetővé téve a rendszer számára, hogy dinamikusan kiigazítsa a modellre rendelkezésre álló példányok számát a következtetési munkaterhelés változásaira válaszul [3] [7]. Ez a szolgáltatás biztosítja, hogy az erőforrásokat úgy optimalizálják, ha csúcsidőben és alacsony igényű időszakokban méreteznek, és ezáltal fenntartják az optimális teljesítményt, miközben minimalizálják a költségeket [1] [3].
A Sagemaker számos automatikus skálázási lehetőséget kínál, beleértve a célkövető méretezést, a lépésméreteket és az ütemezett méretezést. A célkövető méretezést általában használják, ahol beállít egy célmutatót (például CPU felhasználás), és a Sagemaker beállítja a példányszámot, hogy fenntartsa ezt a célt [3] [5].
elasztikus terheléselosztó (ELB) integráció
Míg a Sagemaker automatikus skálázása elsősorban a példányszámok kiigazítására összpontosít a munkaterhelés mutatói alapján, az elasztikus terheléselosztással történő integráció javítja a forgalom eloszlását ezen példányok között. Az ELB biztosítja, hogy a bejövő kérelmeket optimálisan irányítsák a rendelkezésre álló példányokra, javítva a reagálást és csökkentve a szűk keresztmetszeteket [9].
Egy tipikus beállításban az ELB regisztrálja az autópályázási csoport példányait, és forgalmat fordít rájuk. Amikor az példányokat hozzáadják vagy eltávolítják az automatikus méretezéssel, az ELB automatikusan beállítja annak konfigurációját, hogy belefoglalja vagy kizárja ezeket az eseteket, biztosítva, hogy a forgalom mindig aktív példányokra irányuljon [9].
Hogyan működik az automatikus méretezés az ELB-vel a Sagemakerben
1. Munkaterhelés -megfigyelés: A SAGEMAKER MONITORS MONITOR MEGJEGYZÉSEK, mint például a CPU felhasználása vagy az egyidejű kérések. Ha ezek a mutatók meghaladják az előre definiált küszöbértékeket, akkor az automatikus méretezési házirendet indítják [2] [3].
2. Méretezési műveletek: Amikor a munkaterhelés növekszik, a Sagemaker további példányok kiszolgálásával lép fel. Az ELB automatikusan regisztrálja ezeket az új példányokat, és megkezdi a forgalom terjesztését számukra. Ezzel szemben, amikor a munkaterhelés csökken, a Sagemaker mérlegel a felesleges példányok eltávolításával, és az ELB ezeket az eseteket deregisztenjei, hogy megakadályozzák őket a forgalom fogadásában [2] [9].
3. forgalom eloszlás: E folyamat során az ELB biztosítja, hogy a bejövő kérelmek hatékonyan oszlanak meg az aktív példányok között. Ez nem csak javítja a teljesítményt, hanem elősegíti a következetes felhasználói élmény fenntartását azáltal, hogy minimalizálja a válaszidőket és elkerüli a szűk keresztmetszeteket [9].
4. Költségoptimalizálás: A tényleges kereslet alapján és az ELB forgalom eloszlásának kezelésére szolgáló példányok méretezésével a szervezetek optimalizálhatják költségeiket. Csak az általuk felhasznált erőforrásokért fizetnek, csökkentve a felesleges költségeket az alacsony kereslet periódusaiban [3] [7].
Összefoglalva: az automatikus méretezés és a rugalmas terhelés kiegyensúlyozása a Sagemakerben robusztus és hatékony módszert biztosít a valós idejű következtetések kezelésére. Ez biztosítja, hogy az erőforrások dinamikusan kiigazítsák a változó igények kielégítését, miközben megőrzik az optimális teljesítményt és a költséghatékonyságot.
Idézetek:
[1] https://businesscompassllc.com/efefienty-monaging-traffic-for-amazon-sagemaker-real-real-mentpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-genative-aimodels-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-time-in-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-work-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/