Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Wie funktioniert die automatische Skalierung für Deepseek-R1 auf Sagemaker?


Wie funktioniert die automatische Skalierung für Deepseek-R1 auf Sagemaker?


Auto-Skalierung für Deepseek-R1-Modelle im Amazon Sagemaker ist eine kritische Funktion, mit der diese großartigen Modelle ihre Ressourcen dynamisch anhand des Volumens der eingehenden Anforderungen dynamisch anpassen können. Diese Fähigkeit ist für die Aufrechterhaltung der Reaktionsfähigkeit, Zuverlässigkeit und Kosteneffizienz in realen Anwendungen von wesentlicher Bedeutung. Hier finden Sie einen detaillierten Überblick darüber, wie automatisch das Sammeln für Deepseek-R1 auf Sagemaker funktioniert:

Übersicht über das Auto-Scaling

Die automatische Skalierung im Sagemaker ist so konzipiert, dass die Anzahl der Instanzen automatisch auf der Arbeitslast anpasst. Für Deepseek-R1-Modelle bedeutet dies, dass Sagemaker-Endpunkte horizontal skalieren können, um den Verkehr zu verarbeiten, indem mehr Instanzen hinzugefügt werden. Umgekehrt kann Sagemaker in Zeiten mit geringer Nachfrage auf Null -Instanzen skalieren, wodurch die Nutzung der Ressourcen optimiert und die Kosten gesenkt werden.

Schlüsselkomponenten der automatischen Skalierung

1. Lastausgleich: Sagemaker -Endpunkte unterstützen den automatischen Lastausgleich, wodurch eingehende Anforderungen über mehrere Instanzen hinweg verteilt werden. Dies stellt sicher, dass keine einzige Instanz überwältigt ist und auch unter hohen Lastbedingungen eine konsistente Leistung aufrechterhält.

2. Skalierungspolitik: Benutzer können Skalierungsrichtlinien auf der Grundlage spezifischer Metriken wie CPU -Nutzung oder Anforderungslatenz definieren. Diese Richtlinien bestimmen, wann nach oben oder unten skaliert werden soll. Für Deepseek-R1-Modelle können gemeinsame Metriken eine End-to-End-Latenz, Durchsatz-Token, Zeit bis zum ersten Token und eine intergeführte Latenz umfassen.

3.. Parallelitäts- und Instanztypen: Deepseek-R1-Modelle können auf verschiedenen Instanztypen mit unterschiedlichen GPU-Konfigurationen (z. B. 1, 4 oder 8 GPUs pro Instanz) bereitgestellt werden. Die Auswahl des Instanztyps beeinflusst die Leistung und Skalierbarkeit des Modells. Durch die Auswahl geeigneter Instanztypen und Konfigurieren von Parallelitätsstufen können Benutzer die Reaktionsfähigkeit und Effizienz des Modells optimieren.

Bereitstellungsprozess

Um Deepseek-R1-Modelle mit automatischem Skalieren auf Sagemaker einzusetzen, befolgen die Benutzer in der Regel folgende Schritte:

-Modellauswahl: Wählen Sie die entsprechende Deepseek-R1-Modellvariante, wie z.

- Endpunktkonfiguration: Richten Sie mit dem ausgewählten Modell einen Sagemaker -Endpunkt ein. Dies beinhaltet die Angabe des Standorts des Modells (z. B. umarme Gesichtszentren oder einen privaten S3 -Bucket), die Konfiguration von Umgebungsvariablen und das Definieren des Instanztyps und der ersten Instanzzahl.

-Konfiguration für automatische Skalierung: Definieren Sie Richtlinien für die automatische Skalierung auf der Grundlage der gewünschten Metriken (z. B. CPU-Auslastung). Dies stellt sicher, dass der Endpunkt als Reaktion auf Änderungen der Arbeitsbelastung dynamisch skaliert wird.

- Überwachung und Optimierung: Überwachen Sie kontinuierlich die Leistung des Endpunkts und passen Sie die Skalierungsrichtlinien nach Bedarf an, um eine optimale Leistung und Kosteneffizienz aufrechtzuerhalten.

Vorteile des automatischen Skalierens für Deepseek-R1

.
- Verbesserte Reaktionsfähigkeit: Auto-Skalierung stellt sicher, dass das Modell auch unter hohen Lastbedingungen reagiert und die Benutzererfahrung verbessert.
- Vereinfachtes Management: Die verwaltete Infrastruktur von Sagemaker vereinfacht den Bereitstellungs- und Skalierungsprozess und ermöglicht es Entwicklern, sich auf die Modellentwicklung und die Anwendungsintegration als auf die Infrastrukturmanagement zu konzentrieren.

Insgesamt bietet die automatische Skalierung für Deepseek-R1-Modelle auf Sagemaker eine robuste und effiziente Möglichkeit, erweiterte Sprachmodelle bereitzustellen, um sicherzustellen, dass sie unterschiedliche Workloads bewältigen und gleichzeitig hohe Leistung und Kosteneffizienz beibehalten können.

Zitate:
[1] https://aws.amazon.com/blogs/machine-learning/deploy-yepseek-r1-distillieren-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[2] https://blogs.cisco.com/security/evaluating-security-risk-indeepseek-andother-frontier-rasoning-models
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2ioylcjuijoimxfkulbzbgfWotbz Qxfgakl5nzbxUt09iiWidci6iLFJBxDxDLPTBTRGZZKVPRJLWSSTZA2HSMDGYMUTJWE1RDHKZSE5SNFK9IN0
[4] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-teek-r1-distillieren-models-with-hugging-tgi-on-amazon-sagemaker-ai/
[5] https://www.byteplus.com/en/topic/383390
[6] https://repost.aws/questions?view=all&sort=recent&page=eyj2ioylcjuijoiqup4Cuorys9pt29Q aehntjh6ndy0dz09iiwidci6Innvcunvrmfimfq0otluc1v5mkftawjpwmjvthlkofjmttrxd3yvyzrtcmc9in0
[7] https://www.oneclickitolution.com/centerofexcellence/aiml/deploy-yepseek-r1-amazon-sagemaker-guide
[8] https://crossasasst.com/blog/deepseek-r1-on-aws-bedrock/
[9] https://community.aws/content/2z6dlaohx12yunoeas7qb5yth0q/leveraging-leepseek-r1-on-aws?lang=en