Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Làm thế nào để kích thước tự động hoạt động với cân bằng tải đàn hồi trên Sagemaker


Làm thế nào để kích thước tự động hoạt động với cân bằng tải đàn hồi trên Sagemaker


Tự động chia tỷ lệ với cân bằng tải đàn hồi (ELB) trong Amazon Sagemaker liên quan đến việc điều chỉnh động số lượng các trường hợp dựa trên nhu cầu khối lượng công việc trong khi phân phối hiệu quả lưu lượng đến trên các trường hợp này. Dưới đây là tổng quan chi tiết về cách thức tích hợp này hoạt động:

Tự động chia tỷ lệ trong Sagemaker

Amazon Sagemaker hỗ trợ tự động chia tỷ lệ cho các điểm cuối thời gian thực, cho phép hệ thống điều chỉnh động số lượng các trường hợp được cung cấp cho một mô hình để đáp ứng với các thay đổi trong khối lượng công việc suy luận [3] [7]. Tính năng này đảm bảo rằng các tài nguyên được tối ưu hóa bằng cách mở rộng ra trong giờ cao điểm và mở rộng trong các giai đoạn có nhu cầu thấp, do đó duy trì hiệu suất tối ưu trong khi giảm thiểu chi phí [1] [3].

Sagemaker cung cấp một số tùy chọn kích thích tự động, bao gồm tỷ lệ theo dõi mục tiêu, tỷ lệ bước và tỷ lệ theo lịch trình. Tỷ lệ theo dõi mục tiêu thường được sử dụng, trong đó bạn đặt số liệu mục tiêu (ví dụ: sử dụng CPU) và Sagemaker điều chỉnh số lượng thể hiện để duy trì mục tiêu đó [3] [5].

Tích hợp cân bằng tải đàn hồi (ELB)

Trong khi việc tự động Scaling của Sagemaker chủ yếu tập trung vào việc điều chỉnh số lượng trường hợp dựa trên các số liệu khối lượng công việc, việc tích hợp với cân bằng tải đàn hồi giúp tăng cường phân phối lưu lượng trên các trường hợp này. ELB đảm bảo rằng các yêu cầu đến được định tuyến tối ưu đến các trường hợp có sẵn, cải thiện khả năng đáp ứng và giảm tắc nghẽn [9].

Trong một thiết lập điển hình, ELB đăng ký các trường hợp trong một nhóm mở rộng tự động và phân phối lưu lượng truy cập trên chúng. Khi các phiên bản được thêm hoặc xóa bằng cách tự động chia tỷ lệ, ELB sẽ tự động điều chỉnh cấu hình của nó để bao gồm hoặc loại trừ các trường hợp này, đảm bảo rằng lưu lượng luôn được chuyển đến các trường hợp hoạt động [9].

Cách làm việc tự động làm việc với Elb trong Sagemaker

1. Giám sát khối lượng công việc: Sagemaker giám sát các số liệu khối lượng công việc như sử dụng CPU hoặc yêu cầu đồng thời cho mỗi trường hợp. Nếu các số liệu này vượt quá ngưỡng được xác định trước, chính sách tự động Scaling sẽ được kích hoạt [2] [3].

2. Hành động mở rộng: Khi khối lượng công việc tăng lên, Sagemaker mở rộng bằng cách cung cấp các trường hợp bổ sung. ELB tự động đăng ký các trường hợp mới này và bắt đầu phân phối lưu lượng truy cập cho họ. Ngược lại, khi khối lượng công việc giảm, Sagemaker chia tỷ lệ bằng cách loại bỏ các trường hợp không cần thiết và ELB hủy bỏ các trường hợp này để ngăn chúng nhận lưu lượng truy cập [2] [9].

3. Phân phối lưu lượng: Trong suốt quá trình này, ELB đảm bảo rằng các yêu cầu đến được phân phối hiệu quả trên các trường hợp hoạt động. Điều này không chỉ tăng cường hiệu suất mà còn giúp duy trì trải nghiệm người dùng nhất quán bằng cách giảm thiểu thời gian phản hồi và tránh tắc nghẽn [9].

4. Tối ưu hóa chi phí: Bằng cách mở rộng các trường hợp dựa trên nhu cầu thực tế và sử dụng ELB để quản lý phân phối lưu lượng, các tổ chức có thể tối ưu hóa chi phí của họ. Họ chỉ trả tiền cho các tài nguyên họ sử dụng, giảm các chi phí không cần thiết trong thời gian nhu cầu thấp [3] [7].

Tóm lại, việc tích hợp tự động chia tỷ lệ với cân bằng tải đàn hồi trong Sagemaker cung cấp một cách mạnh mẽ và hiệu quả để quản lý khối lượng công việc suy luận thời gian thực. Nó đảm bảo rằng các tài nguyên được điều chỉnh động để đáp ứng nhu cầu thay đổi trong khi duy trì hiệu suất và hiệu quả chi phí tối ưu.

Trích dẫn:
.
.
.
[4] https://repost.aws/questions/QUDPxlldhzS1GNaSLn4ebRxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/