Automatyczne skalowanie z elastycznym równoważeniem obciążenia (ELB) w Amazon Sagemaker polega na dynamicznym dostosowaniu liczby wystąpień opartych na wymaganiach dotyczących obciążenia, a jednocześnie skutecznie dystrybuować przychodzący ruch w tych przypadkach. Oto szczegółowy przegląd tego, jak działa ta integracja:
Auto-Skaling w Sagemaker
Amazon Sagemaker obsługuje automatyczne skalowanie punktów końcowych w czasie rzeczywistym, umożliwiając systemowi dynamiczne dostosowanie liczby instancji dostarczonych dla modelu w odpowiedzi na zmiany w obciążeniu wnioskowaniem [3] [7]. Ta funkcja zapewnia, że zasoby są zoptymalizowane poprzez skalowanie w godzinach szczytu i skalowanie w okresach o niskim żądaniu, utrzymując w ten sposób optymalną wydajność, jednocześnie minimalizując koszty [1] [3].
SageMaker oferuje kilka opcji automatycznego skalowania, w tym skalowanie śledzenia celu, skalowanie kroków i zaplanowane skalowanie. Powszechnie stosuje się skalowanie śledzenia celu, w którym ustawiasz metrykę docelową (np. Wykorzystanie procesora), a Sagemaker dostosowuje liczbę instancji, aby utrzymać ten cel [3] [5].
elastyczne równoważenie obciążenia (ELB)
Podczas gdy automatyczne skalowanie SageMaker koncentruje się przede wszystkim na dostosowaniu liczby instancji w oparciu o wskaźniki obciążenia, integracja z elastycznym równoważeniem obciążenia zwiększa rozkład ruchu w tych instancjach. ELB zapewnia, że przychodzące żądania są optymalnie skierowane do dostępnych instancji, poprawiając reaktywność i zmniejszając wąskie gardła [9].
W typowej konfiguracji ELB rejestruje instancje w grupie automatycznego skalowania i rozkłada ruch na nich. Gdy instancje są dodawane lub usuwane przez automatyczne skalowanie, ELB automatycznie dostosowuje swoją konfigurację w celu uwzględnienia lub wykluczenia tych instancji, zapewniając, że ruch jest zawsze kierowany do aktywnych instancji [9].
Jak działa auto-skalowanie z ELB w Sagemaker
1. Monitorowanie obciążenia pracą: Sagemaker monitoruje wskaźniki obciążenia, takie jak wykorzystanie procesora lub współbieżne żądania na instancję. Jeśli te wskaźniki przekraczają predefiniowane progi, uruchamiana jest polityka automatycznego skalowania [2] [3].
2. Działania skalowania: Gdy obciążenie pracuje, SageMaker wypiera się, zapewniając dodatkowe instancje. ELB automatycznie rejestruje te nowe instancje i zaczyna dystrybuować im ruch. I odwrotnie, gdy obciążenie obciążenia maleje, Sagemaker skaluje się poprzez usunięcie niepotrzebnych instancji, a ELB deregiistrzy te, aby zapobiec ich otrzymaniu ruchu [2] [9].
3. Dystrybucja ruchu: W całym tym procesie ELB zapewnia, że żądania przychodzące są skutecznie rozmieszczone w aktywnych przypadkach. To nie tylko poprawia wydajność, ale także pomaga utrzymać spójne wrażenia użytkownika, minimalizując czasy reakcji i unikanie wąskich gardeł [9].
4. Optymalizacja kosztów: poprzez skalowanie instancji na podstawie faktycznego popytu i korzystając z ELB do zarządzania dystrybucją ruchu, organizacje mogą zoptymalizować swoje koszty. Płacą tylko za zasoby, których używają, zmniejszając niepotrzebne wydatki w okresach niskiego popytu [3] [7].
Podsumowując, integracja automatycznego skalowania z równoważeniem obciążenia elastycznego w SageMaker zapewnia solidny i wydajny sposób zarządzania obciążeniami wnioskowania w czasie rzeczywistym. Zapewnia, że zasoby są dynamicznie dostosowywane, aby sprostać zmieniającym się wymaganiom przy jednoczesnym zachowaniu optymalnej wydajności i efektywności kosztowej.
Cytaty:
[1] https://businesscompassllc.com/effyntly-managing-traffic-for-amazon-sageMaker-real Time-endPoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-dploys-with-auto-scaling-on-amazon-sagemaker/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebrxw/sagemaker-inference-recommendation
[5] https://www.restack.io/p/real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with-sagemaker-endpoints
[7] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/