Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Bagaimana cara kerja penskalaan otomatis dengan balancing beban elastis pada sagemaker


Bagaimana cara kerja penskalaan otomatis dengan balancing beban elastis pada sagemaker


Scaling otomatis dengan elastis load balancing (ELB) di Amazon Sagemaker melibatkan menyesuaikan secara dinamis jumlah instance berdasarkan permintaan beban kerja sambil secara efisien mendistribusikan lalu lintas yang masuk di seluruh contoh ini. Berikut gambaran terperinci tentang cara kerja integrasi ini:

skala otomatis di Sagemaker

Amazon Sagemaker mendukung penskalaan otomatis untuk titik akhir real-time, memungkinkan sistem untuk secara dinamis menyesuaikan jumlah instance yang disediakan untuk model dalam menanggapi perubahan dalam beban kerja inferensi [3] [7]. Fitur ini memastikan bahwa sumber daya dioptimalkan dengan penskalaan selama jam sibuk dan penskalaan selama periode permintaan rendah, sehingga mempertahankan kinerja optimal sambil meminimalkan biaya [1] [3].

Sagemaker menawarkan beberapa opsi penskalaan otomatis, termasuk penskalaan pelacakan target, penskalaan langkah, dan penskalaan yang dijadwalkan. Penskalaan pelacakan target umumnya digunakan, di mana Anda menetapkan metrik target (mis., Pemanfaatan CPU) dan Sagemaker menyesuaikan jumlah instance untuk mempertahankan target itu [3] [5].

Integrasi Balancing Load Elastic (ELB) ##

Sementara skaling otomatis Sagemaker terutama berfokus pada penyesuaian jumlah instance berdasarkan metrik beban kerja, berintegrasi dengan penyeimbangan beban elastis meningkatkan distribusi lalu lintas di seluruh contoh ini. ELB memastikan bahwa permintaan yang masuk secara optimal dialihkan ke contoh yang tersedia, meningkatkan respons dan mengurangi kemacetan [9].

Dalam pengaturan yang khas, ELB mencatat contoh dalam kelompok penskalaan otomatis dan mendistribusikan lalu lintas di seluruh mereka. Ketika instance ditambahkan atau dihapus dengan penskalaan otomatis, ELB secara otomatis menyesuaikan konfigurasinya untuk memasukkan atau mengecualikan instance ini, memastikan bahwa lalu lintas selalu diarahkan ke instance aktif [9].

Bagaimana penskalaan otomatis bekerja dengan ELB di Sagemaker

1. Pemantauan beban kerja: Sagemaker memantau metrik beban kerja seperti pemanfaatan CPU atau permintaan bersamaan per instance. Jika metrik ini melebihi ambang batas yang telah ditentukan, kebijakan penskalaan otomatis dipicu [2] [3].

2. Tindakan penskalaan: Ketika beban kerja meningkat, Sagemaker berskala dengan menyediakan contoh tambahan. ELB secara otomatis mendaftarkan contoh -contoh baru ini dan mulai mendistribusikan lalu lintas kepada mereka. Sebaliknya, ketika beban kerja berkurang, Sagemaker berskala dengan menghapus contoh yang tidak perlu, dan ELB Deregisters contoh -contoh ini untuk mencegah mereka menerima lalu lintas [2] [9].

3. Distribusi Lalu Lintas: Sepanjang proses ini, ELB memastikan bahwa permintaan yang masuk didistribusikan secara efisien di seluruh contoh aktif. Ini tidak hanya meningkatkan kinerja tetapi juga membantu mempertahankan pengalaman pengguna yang konsisten dengan meminimalkan waktu respons dan menghindari kemacetan [9].

4. Optimalisasi Biaya: Dengan skala instance berdasarkan permintaan aktual dan menggunakan ELB untuk mengelola distribusi lalu lintas, organisasi dapat mengoptimalkan biaya mereka. Mereka hanya membayar sumber daya yang mereka gunakan, mengurangi biaya yang tidak perlu selama periode permintaan rendah [3] [7].

Singkatnya, integrasi penskalaan otomatis dengan penyeimbangan beban elastis di Sagemaker memberikan cara yang kuat dan efisien untuk mengelola beban kerja inferensi real-time. Ini memastikan bahwa sumber daya disesuaikan secara dinamis untuk memenuhi permintaan yang berubah sambil mempertahankan kinerja optimal dan efisiensi biaya.

Kutipan:
[1] https://businesscompassllc.com/eficiently-managing-traffic-for-amazon-sagemaker-real-time-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-odels-with-amazon-sagemaker/
[3.
[4] https://repost.aws/questions/Qudpxlldhzs1gnasln4ebrxw/sagemaker-nferensi-recommendation
[5] https://www.restack.io/p/real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-agemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/