Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon W jaki sposób auto-skalowanie poprawia wydajność Deepseek-R1 na SageMaker


W jaki sposób auto-skalowanie poprawia wydajność Deepseek-R1 na SageMaker


Auto-skalowanie znacznie zwiększa wydajność modeli DeepSeek-R1 na Amazon Sagemaker poprzez dynamiczne dostosowanie liczby instancji i kopii modelowych na podstawie popytu w czasie rzeczywistym. Ta zdolność zapewnia, że ​​model może skutecznie obsługiwać fluktuacje obciążenia pracą, zapewniając bezproblemowe wrażenia użytkownika, jednocześnie optymalizując wykorzystanie zasobów i koszty.

Kluczowe korzyści z automatycznego skalowania dla Deepseek-R1 na SageMaker

1. Dynamiczny alokacja zasobów: automatyczne skalowanie umożliwia SageMaker na dodatkowe instancje i wdrażanie większej liczby kopii modelowych wraz z wzrostem ruchu, zapewniając, że model może obsłużyć większą liczbę żądań bez uszczerbku dla wydajności. I odwrotnie, wraz ze spadkiem ruchu, niepotrzebne przypadki są usuwane, zmniejszając koszty poprzez unikanie zasobów bezczynnych [1] [2] [5].

2. Poprawiona reakcja: Skalowanie w celu zaspokojenia zwiększonego popytu, automatyczne skalowanie pomaga utrzymać niskie opóźnienia i wysoką przepustowość. Jest to szczególnie ważne w przypadku generatywnych modeli AI, takich jak Deepseek-R1, gdzie reaktywność bezpośrednio wpływa na wrażenia użytkownika [2] [8].

3. Wydajność kosztów: automatyczne skalowanie zapewnia, że ​​zasoby są efektywnie wykorzystywane. W godzinach bez szczytu punkt końcowy może zmniejszyć się do zera, optymalizując zużycie zasobów i wydajność kosztową. Ta funkcja jest szczególnie korzystna dla aplikacji o zmiennym wzorcach ruchu [1] [5].

4. Skalowanie adaptacyjne: Automatyczne funkcje SageMaker zostały zaprojektowane w celu dostosowania do konkretnych potrzeb generatywnych modeli AI, takich jak DeepSeek-R1. Wykorzystując wskaźniki o wysokiej rozdzielczości, takie jak ConcurrentRequestsperModel i ContrentrentRequestSpercopy, system może podejmować precyzyjne decyzje skalowania, zapewniając, że model pozostaje responsywny i opłacalny [2] [8].

5. Integracja z równoważeniem obciążenia: automatyczne skalowanie działa bezproblemowo z elastycznym równoważeniem obciążenia w celu skutecznego rozpowszechniania przychodzących żądań w opracowanych zasobach. Ta integracja zapewnia, że ​​żadna instancja nie jest przytłoczona, utrzymując spójną wydajność we wszystkich żądaniach [1] [8].

wdrażanie i ocena wydajności

Modele DeepSeek-R1 można wdrożyć na SageMaker za pomocą wnioskowania o generowaniu tekstu przytulania twarzy (TGI), który obsługuje automatyczne skalowanie. Wydajność tych modeli jest oceniana na podstawie wskaźników, takich jak opóźnienie kompleksowe, przepustowość, czas na pierwsze token i opóźnienie między toke. Chociaż dostarczone oceny oferują wgląd w względną wydajność, użytkownicy są zachęcani do przeprowadzenia własnych testów w celu optymalizacji wydajności dla określonych przypadków użycia i konfiguracji sprzętowych [1] [4].

Podsumowując, auto-skalowanie na SageMaker poprawia wydajność DeepSeek-R1 poprzez zapewnienie dynamicznej alokacji zasobów, poprawę reakcji, optymalizacji kosztów i dostosowywania się do zmieniających się wymagań, a jednocześnie utrzymując możliwości modelu języka wysokiej jakości.

Cytaty:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://repost.aws/questions?view=All&sort=recenent&page=YJ2IjoylCjUijoIzgtmyktumnf0wuzn Y1dmahkxcgrvut09iiWidci6ikZrbitwZi2M05zvKlzBwGZT0VWZK5WM5ovKivoxByN21tq0ppdthrwwc9in0
[4] https://aws.amazon.com/blogs/machine-loarning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[6] https://www.byteplus.com/en/topic/382691
[7] https://campustechnology.com/articles/2025/03/14/aws-fakers-deepseek-r1-as-ally-manage-serverless-recommends-goardrails.aspx
[8] https://aws.amazon.com/blogs/machine-loarning/amazon-sagemaker-nference-lounches-faster-auto-scaling-for-generacyjna-ai-models/