Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Wie funktioniert die automatische Skalierung mit einem elastischen Lastausgleich auf Sagemaker?


Wie funktioniert die automatische Skalierung mit einem elastischen Lastausgleich auf Sagemaker?


Bei der automatischen Skalierung mit Elastic Last Balancing (ELB) im Amazon-Sagemaker beinhaltet die dynamische Anpassung der Anzahl der Instanzen auf der Grundlage der Arbeitsbelastungsanforderungen und basiert gleichzeitig die Anforderungen an die Arbeitsbelastung und verteilt den eingehenden Verkehr über diese Instanzen effizient. Hier ist ein detaillierter Überblick darüber, wie diese Integration funktioniert:

Auto-Skalierung in Sagemaker

Der Amazon Sagemaker unterstützt automatische Skalierung für Echtzeitendpunkte, sodass das System die Anzahl der für ein Modell als Reaktion auf Änderungen in der Inferenzarbeitslast vorgesehenen Instanzen dynamisch anpassen kann [3] [7]. Diese Funktion stellt sicher, dass die Ressourcen optimiert werden, indem sie während der Spitzenzeiten und in niedrigen Nachfragen skalieren, wodurch die optimale Leistung aufrechterhalten wird und gleichzeitig die Kosten minimiert [1] [3].

Sagemaker bietet mehrere automatische Skalierungsoptionen an, darunter die Skalierung der Zielverfolgung, die Stufenskalierung und die geplante Skalierung. Die Zielverfolgungsskalierung wird häufig verwendet, wobei Sie eine Zielmetrik (z. B. CPU -Auslastung) festlegen, und der Sagemaker passt die Instanzzahl an, um dieses Ziel beizubehalten [3] [5].

Integration für elastische Lastausgleich (ELB)

Während Sagemakers automatische Skalierung hauptsächlich auf die Anpassung von Instanzzählungen auf der Grundlage von Workload-Metriken konzentriert, verbessert die Integration in den elastischen Lastausgleich die Verteilung des Verkehrs über diese Fälle hinweg. ELB stellt sicher, dass eingehende Anfragen optimal an verfügbare Instanzen weitergeleitet werden, was die Reaktionsfähigkeit verbessert und Engpässe verringert [9].

In einem typischen Setup registriert ELB in einer automatischen Skalierungsgruppe und verteilt den Verkehr über sie. Wenn Instanzen durch automatische Skalierung hinzugefügt oder entfernt werden, passt ELB seine Konfiguration automatisch an diese Instanzen an oder schließt sie automatisch an, um sicherzustellen, dass der Verkehr immer an aktive Instanzen gerichtet ist [9].

Wie automatisch mit ELB in Sagemaker funktioniert

1. Workload -Überwachung: Sagemaker überwacht die Arbeitsbelastungsmetriken wie die CPU -Auslastung oder die gleichzeitigen Anfragen pro Instanz. Wenn diese Metriken vordefinierte Schwellenwerte überschreiten, wird die automatische Skalierungspolitik ausgelöst [2] [3].

2. Skalierungsaktionen: Wenn die Arbeitsbelastung zunimmt, skaliert Sagemaker durch Bereitstellung zusätzlicher Instanzen. ELB registriert diese neuen Instanzen automatisch und beginnt mit der Verteilung von Verkehr an sie. Umgekehrt skaliert Sagemaker, wenn die Arbeitsbelastung abnimmt, durch die Entfernung unnötiger Instanzen und die ELB -Deregisters diese Instanzen, um sie daran zu hindern, Verkehr zu erhalten [2] [9].

3. Verkehrsverteilung: Während dieses Prozesses stellt ELB sicher, dass eingehende Anforderungen effizient über die aktiven Instanzen verteilt werden. Dies verbessert nicht nur die Leistung, sondern hilft auch dabei, eine konsistente Benutzererfahrung zu erhalten, indem die Reaktionszeiten minimiert und Engpässe vermieden werden [9].

V. Sie zahlen nur für die Ressourcen, die sie verwenden, wodurch unnötige Ausgaben in Zeiten mit geringer Nachfrage [3] [7] reduziert werden.

Zusammenfassend bietet die Integration des automatischen Skalierens mit elastischen Lastausgleich in Sagemaker eine robuste und effiziente Möglichkeit, Workloads in Echtzeit invernkten zu verwalten. Es stellt sicher, dass die Ressourcen dynamisch angepasst werden, um sich ändernde Anforderungen zu erfüllen und gleichzeitig eine optimale Leistung und Kosteneffizienz beizubehalten.

Zitate:
[1] https://businessCompassllc.com/efficently-managing-traffic-for-amazon-sagemaker-real-time-endpoints-with-autoscaling-and-xgboost/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://aws.amazon.com/blogs/machine-learning/optimize-your-machine-learning-deployments-with-auto-scaling-on-amazon---Geployments/
[4] https://repost.aws/questions/qudpxlldhzs1gnasln4ebxw/sagemakerininferenz-recommendation
[5] https://www.restack.io/p/real-time-ai-inference-answer-sagemaker-autoscaling-cat-ai
[6] https://stackoverflow.com/questions/71344215/how-does-scaling-policy-work-with--Gemaker-endpoints
[7] https://docs.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[8] https://docs.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling-policy.html
[9] https://jayendrapatil.com/aws-auto-scaling-elb/