การปรับขนาดอัตโนมัติด้วยการปรับสมดุลโหลดแบบยืดหยุ่น (ELB) ใน Amazon Sagemaker เกี่ยวข้องกับการปรับจำนวนอินสแตนซ์แบบไดนามิกตามความต้องการปริมาณงานในขณะที่กระจายการรับส่งข้อมูลที่เข้ามาอย่างมีประสิทธิภาพในกรณีเหล่านี้ นี่คือภาพรวมโดยละเอียดเกี่ยวกับวิธีการทำงานของการรวมนี้:
การปรับขนาดอัตโนมัติใน Sagemaker
Amazon Sagemaker รองรับการปรับขนาดอัตโนมัติสำหรับจุดสิ้นสุดแบบเรียลไทม์ช่วยให้ระบบสามารถปรับจำนวนอินสแตนซ์แบบไดนามิกสำหรับแบบจำลองเพื่อตอบสนองต่อการเปลี่ยนแปลงของภาระงานอนุมาน [3] [7] คุณลักษณะนี้ช่วยให้มั่นใจได้ว่าทรัพยากรจะได้รับการปรับให้เหมาะสมโดยการปรับขนาดในช่วงเวลาสูงสุดและปรับขนาดในช่วงเวลาที่มีความต้องการต่ำซึ่งจะรักษาประสิทธิภาพที่ดีที่สุดในขณะที่ลดต้นทุน [1] [3]
Sagemaker เสนอตัวเลือกการปรับขนาดอัตโนมัติหลายตัวเลือกรวมถึงการปรับสเกลเป้าหมายการปรับสเกลขั้นตอนและการปรับสเกลตามกำหนดเวลา การปรับขนาดการติดตามเป้าหมายมักใช้โดยที่คุณตั้งค่าตัวชี้วัดเป้าหมาย (เช่นการใช้งาน CPU) และ Sagemaker ปรับจำนวนอินสแตนซ์เพื่อรักษาเป้าหมายนั้น [3] [5]
การรวม Load Balancing Elastic (ELB)
ในขณะที่การปรับขนาดอัตโนมัติของ Sagemaker มุ่งเน้นไปที่การปรับจำนวนอินสแตนซ์ตามการวัดปริมาณงานการรวมเข้ากับการปรับสมดุลโหลดแบบยืดหยุ่นช่วยเพิ่มการกระจายของการรับส่งข้อมูลในอินสแตนซ์เหล่านี้ ELB ทำให้มั่นใจได้ว่าคำขอที่เข้ามาจะถูกส่งไปยังอินสแตนซ์ที่มีอยู่อย่างเหมาะสมปรับปรุงการตอบสนองและลดคอขวด [9]
ในการตั้งค่าทั่วไป ELB จะลงทะเบียนอินสแตนซ์ในกลุ่มการปรับขนาดอัตโนมัติและกระจายการรับส่งข้อมูลข้ามพวกเขา เมื่อมีการเพิ่มหรือลบอินสแตนซ์โดยการปรับสเกลอัตโนมัติ ELB จะปรับการกำหนดค่าโดยอัตโนมัติเพื่อรวมหรือยกเว้นอินสแตนซ์เหล่านี้เพื่อให้มั่นใจว่าการรับส่งข้อมูลจะถูกนำไปยังอินสแตนซ์ที่ใช้งานอยู่เสมอ [9]
การปรับขนาดอัตโนมัติทำงานร่วมกับ ELB ใน Sagemaker ได้อย่างไร
1. การตรวจสอบเวิร์กโหลด: SAGEMAKER ตรวจสอบการวัดปริมาณงานเช่นการใช้ CPU หรือคำขอพร้อมกันต่ออินสแตนซ์ หากตัวชี้วัดเหล่านี้เกินขีด จำกัด ที่กำหนดไว้ล่วงหน้านโยบายการปรับขนาดอัตโนมัติจะถูกเรียกใช้ [2] [3]
2. การดำเนินการปรับขนาด: เมื่อปริมาณงานเพิ่มขึ้น Sagemaker จะลดขนาดโดยการจัดสรรอินสแตนซ์เพิ่มเติม ELB ลงทะเบียนอินสแตนซ์ใหม่เหล่านี้โดยอัตโนมัติและเริ่มแจกจ่ายปริมาณการใช้งานให้กับพวกเขา ในทางกลับกันเมื่อภาระงานลดลง Sagemaker จะลดขนาดโดยการลบอินสแตนซ์ที่ไม่จำเป็นและ ELB deregisters อินสแตนซ์เหล่านี้เพื่อป้องกันไม่ให้พวกเขาได้รับการจราจร [2] [9]
3. การกระจายการจราจร: ตลอดกระบวนการนี้ ELB ทำให้มั่นใจได้ว่าคำขอที่เข้ามานั้นมีการกระจายอย่างมีประสิทธิภาพในอินสแตนซ์ที่ใช้งานอยู่ สิ่งนี้ไม่เพียง แต่ช่วยเพิ่มประสิทธิภาพ แต่ยังช่วยรักษาประสบการณ์ผู้ใช้ที่สอดคล้องกันโดยลดเวลาตอบสนองและหลีกเลี่ยงปัญหาคอขวด [9]
4. การเพิ่มประสิทธิภาพต้นทุน: โดยการปรับขนาดอินสแตนซ์ตามความต้องการที่แท้จริงและการใช้ ELB เพื่อจัดการการกระจายการจราจรองค์กรสามารถปรับค่าใช้จ่ายให้เหมาะสม พวกเขาจ่ายเฉพาะทรัพยากรที่พวกเขาใช้ลดค่าใช้จ่ายที่ไม่จำเป็นในช่วงที่มีความต้องการต่ำ [3] [7]
โดยสรุปการรวมการปรับขนาดอัตโนมัติกับการปรับสมดุลโหลดแบบยืดหยุ่นใน Sagemaker ให้วิธีที่แข็งแกร่งและมีประสิทธิภาพในการจัดการเวิร์กโหลดการอนุมานแบบเรียลไทม์ ช่วยให้มั่นใจได้ว่าทรัพยากรได้รับการปรับแบบไดนามิกเพื่อตอบสนองความต้องการที่เปลี่ยนแปลงในขณะที่ยังคงประสิทธิภาพและประสิทธิภาพด้านต้นทุนที่ดีที่สุด
การอ้างอิง:
[1] https://businesscompassllc.com/efficiently-Managing-traffic-for-amazon-sagemaker-real-time-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-enerative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/Questions/QUDPXLLDHZS1GNASLN4EBRXW/SAGEMAKER-INFERSION-RECOMMENDATION
[5] https://www.restack.io/p/real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/