Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Πώς λειτουργεί αυτόματη κλιμάκωση με εξισορρόπηση ελαστικού φορτίου στο Sagemaker


Πώς λειτουργεί αυτόματη κλιμάκωση με εξισορρόπηση ελαστικού φορτίου στο Sagemaker


Η αυτόματη κλιμάκωση με εξισορρόπηση ελαστικού φορτίου (ELB) στο Amazon Sagemaker συνεπάγεται δυναμικά την προσαρμογή του αριθμού των περιπτώσεων που βασίζονται σε απαιτήσεις φόρτου εργασίας, ενώ παράλληλα διανέμει την εισερχόμενη κυκλοφορία σε αυτές τις περιπτώσεις. Ακολουθεί μια λεπτομερής επισκόπηση του τρόπου λειτουργίας αυτής της ενσωμάτωσης:

αυτόματη κλιμάκωση στο Sagemaker

Το Amazon Sagemaker υποστηρίζει την αυτόματη κλιμάκωση για τα τελικά σημεία σε πραγματικό χρόνο, επιτρέποντας στο σύστημα να ρυθμίζει δυναμικά τον αριθμό των περιπτώσεων που παρέχονται για ένα μοντέλο σε απάντηση στις αλλαγές στο φόρτο εργασίας των συμπερασμάτων [3] [7]. Αυτό το χαρακτηριστικό διασφαλίζει ότι οι πόροι βελτιστοποιούνται με την κλιμάκωση κατά τη διάρκεια των ωρών αιχμής και την κλιμάκωση κατά τη διάρκεια περιόδων χαμηλής ζήτησης, διατηρώντας έτσι τη βέλτιστη απόδοση ενώ ελαχιστοποιώντας το κόστος [1] [3].

Το Sagemaker προσφέρει αρκετές επιλογές αυτόματης κλιμάκωσης, συμπεριλαμβανομένης της κλιμάκωσης παρακολούθησης στόχου, της κλιμάκωσης των βημάτων και της προγραμματισμένης κλιμάκωσης. Η κλιμάκωση της παρακολούθησης στόχου χρησιμοποιείται συνήθως, όπου ορίζετε μια μέτρηση στόχου (π.χ., αξιοποίηση της CPU) και ο Sagemaker ρυθμίζει τον αριθμό των εμφανίσεων για να διατηρήσει αυτόν τον στόχο [3] [5].

Elastic Load Balancing (ELB) Ενσωμάτωση

Ενώ η αυτόματη κλιμάκωση του Sagemaker επικεντρώνεται κυρίως στην προσαρμογή των μετρήσεων στιγμιότυπων βασισμένων σε μετρήσεις φόρτου εργασίας, η ενσωμάτωση με την εξισορρόπηση του ελαστικού φορτίου ενισχύει τη διανομή της κυκλοφορίας σε αυτές τις περιπτώσεις. Το ELB διασφαλίζει ότι τα εισερχόμενα αιτήματα καθορίζονται με τον άριστα δρομολογημένα σε διαθέσιμες περιπτώσεις, βελτιώνοντας την ανταπόκριση και μειώνοντας τα σημεία συμφόρησης [9].

Σε μια τυπική ρύθμιση, το ELB καταγράφει περιπτώσεις σε μια ομάδα κλιμάκωσης αυτοκινήτων και διανέμει την κυκλοφορία σε αυτά. Όταν οι περιπτώσεις προστίθενται ή απομακρύνονται από την αυτόματη κλιμάκωση, η ELB ρυθμίζει αυτόματα τη διαμόρφωσή του ώστε να συμπεριλάβει ή να αποκλείσει αυτές τις περιπτώσεις, διασφαλίζοντας ότι η κυκλοφορία κατευθύνεται πάντοτε σε ενεργές περιπτώσεις [9].

Πώς λειτουργεί αυτόματη κλιμάκωση με το ELB στο Sagemaker

1. Παρακολούθηση φόρτου εργασίας: Ο Sagemaker παρακολουθεί τις μετρήσεις φόρτου εργασίας όπως η χρήση της CPU ή ταυτόχρονα αιτήματα ανά εμφάνιση. Εάν αυτές οι μετρήσεις υπερβαίνουν τα προκαθορισμένα όρια, ενεργοποιείται η πολιτική αυτόματης κλιμάκωσης [2] [3].

2. Δράσεις κλιμάκωσης: Όταν ο φόρτος εργασίας αυξάνεται, ο Sagemaker κλιμακώνεται με την παροχή πρόσθετων περιπτώσεων. Ο ELB καταγράφει αυτόματα αυτές τις νέες περιπτώσεις και αρχίζει να διανέμει την κυκλοφορία τους. Αντίθετα, όταν ο φόρτος εργασίας μειώνεται, ο Sagemaker κλιμακώνεται με την αφαίρεση των περιττών περιπτώσεων και οι Elb Deregisters αυτές τις περιπτώσεις για να τους εμποδίσουν να λάβουν την κυκλοφορία [2] [9].

3. Διανομή κυκλοφορίας: Σε όλη αυτή τη διαδικασία, ο ELB εξασφαλίζει ότι τα εισερχόμενα αιτήματα κατανέμονται αποτελεσματικά σε όλες τις ενεργές περιπτώσεις. Αυτό όχι μόνο ενισχύει την απόδοση αλλά επίσης βοηθά στη διατήρηση μιας συνεπούς εμπειρίας χρήστη με την ελαχιστοποίηση των χρόνων απόκρισης και την αποφυγή των σημείων συμφόρησης [9].

4. Βελτιστοποίηση κόστους: Με την κλιμάκωση των περιπτώσεων που βασίζονται στην πραγματική ζήτηση και τη χρήση του ELB για τη διαχείριση της διανομής της κυκλοφορίας, οι οργανισμοί μπορούν να βελτιστοποιήσουν το κόστος τους. Πληρώνουν μόνο για τους πόρους που χρησιμοποιούν, μειώνοντας τις περιττές δαπάνες κατά τη διάρκεια περιόδων χαμηλής ζήτησης [3] [7].

Συνοπτικά, η ενσωμάτωση της αυτόματης κλιμάκωσης με εξισορρόπηση ελαστικού φορτίου στο Sagemaker παρέχει έναν ισχυρό και αποτελεσματικό τρόπο για τη διαχείριση φόρτου εργασίας σε πραγματικό χρόνο. Εξασφαλίζει ότι οι πόροι προσαρμόζονται δυναμικά για να ανταποκριθούν στις μεταβαλλόμενες απαιτήσεις διατηρώντας ταυτόχρονα τη βέλτιστη απόδοση και την αποδοτικότητα του κόστους.

Αναφορές:
[1] https://businesscompassllc.com/effectionly-foraging-traffic-for-amazon-sagemaker-real-time-ends-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-caling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-caling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-caling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-caling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-caling-policy.html
[9] https://jayendrapatil.com/aws-auto-caling-elb/