Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Як автоматичне масштабування покращує продуктивність DeepSeek-R1 на SageMaker


Як автоматичне масштабування покращує продуктивність DeepSeek-R1 на SageMaker


Автоматичне масштабування значно підвищує продуктивність моделей DeepSeek-R1 на Amazon SageMaker, динамічно регулюючи кількість екземплярів та модельних копії на основі попиту в режимі реального часу. Ця можливість забезпечує, що модель може ефективно обробляти коливання навантаження, забезпечуючи безперебійний досвід користувачів, оптимізуючи використання ресурсів та витрати.

Ключові переваги автоматичного розподілу для DeepSeek-R1 на SageMaker

1. Динамічний розподіл ресурсів: Автоматичне масштабування дозволяє SageMaker забезпечити додаткові екземпляри та розгортати більше модельних копії при збільшенні трафіку, гарантуючи, що модель може обробляти більший обсяг запитів без шкоди для продуктивності. І навпаки, у міру зменшення трафіку видаляються непотрібні екземпляри, зменшуючи витрати, уникаючи простою ресурсів [1] [2] [5].

2. Поліпшена чутливість: масштабуванням для задоволення збільшення попиту, автоматичне масштабування допомагає підтримувати низьку затримку та високу пропускну здатність. Це особливо важливо для генеративних моделей AI, таких як DeepSeek-R1, де чуйність безпосередньо впливає на досвід користувачів [2] [8].

3. Ефективність витрат: Автоматичне масштабування забезпечує ефективне використання ресурсів. У години, що не випиваються, кінцева точка може масштабувати до нуля, оптимізуючи використання ресурсів та ефективність витрат. Ця функція особливо корисна для додатків із змінними моделями трафіку [1] [5].

4. Адаптивне масштабування: функції автоматичного масштабування SageMaker розроблені для адаптації до конкретних потреб генеративних моделей AI, таких як DeepSeek-R1. Використовуючи показники високої роздільної здатності, такі як ComplerentRequestSperModel та ConcharrentRequestSpercopy, система може приймати точні рішення для масштабування, гарантуючи, що модель залишається чуйною та економічною [2] [8].

5. Інтеграція з балансуванням навантаження: Автоматичне масштабування безперешкодно працює з еластичним балансуванням навантаження для ефективного розподілу вхідних запитів через масштабовані ресурси. Ця інтеграція гарантує, що жоден екземпляр не переповнений, підтримуючи послідовну ефективність у всіх запитах [1] [8].

оцінка розгортання та ефективності

Моделі DeepSeek-R1 можна розгорнути на SageMaker за допомогою висновку про генерацію тексту, що обіймає обличчя (TGI), який підтримує автоматичне масштабування. Продуктивність цих моделей оцінюється на основі таких показників, як затримка до кінця до кінця, пропускна здатність, час до першого маркера та затримка переплетення. Хоча надані оцінки пропонують уявлення про відносну продуктивність, користувачам рекомендується проводити власне тестування для оптимізації продуктивності для конкретних випадків використання та конфігурацій обладнання [1] [4].

Підсумовуючи це, автоматичне масштабування на Sagemaker підвищує продуктивність DeepSeek-R1, забезпечуючи динамічне розподіл ресурсів, покращення чуйності, оптимізації витрат та адаптації до змін потребу, все при цьому зберігаючи якісні можливості мови мови.

Цитати:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distill-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[2] https://randomtrees.com/blog/auto-scaling-for-generative-ai-models-with-amazon-sagemaker/
[3] https://repost.aws/questions?view=all&sort=Recent&page=eyj2ijoylcjuijoizgtmyktumnf0wuzn Y1dmahkxcgrvut09iiwidci6ikzrbitwvvzi2m05zvklzbwgzt0vwzk5wvm5ovkivoxbyn21tq0ppdthrwwc9in0
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distill-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[6] https://www.byteplus.com/en/topic/382691
[7] https://campustechnology.com/articles/2025/03/14/aws-ffers-deepseek-r1-as-sly-managed-serverless-model-recommends-guardrails.aspx
[8] https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-inference-launches-faster-auto-scaling-for-generative-ai-models/