Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Як працює автоматичне масштабування для DeepSeek-R1 на SageMaker


Як працює автоматичне масштабування для DeepSeek-R1 на SageMaker


Автоматичне масштабування для моделей DeepSeek-R1 на Amazon Sagemaker є критичною особливістю, яка дозволяє цим великим мовним моделям динамічно регулювати свої ресурси на основі обсягу вхідних запитів. Ця здатність має важливе значення для підтримки чуйності, надійності та економічної ефективності в реальних програмах. Ось детальний огляд того, як працює автоматичне масштабування для DeepSeek-R1 на Sagemaker:

Огляд автоматичного масштабу

Автоматичне масштабування в SageMaker призначений для автоматичного регулювання кількості екземплярів на основі навантаження. Для моделей DeepSeek-R1 це означає, що кінцеві точки Sagemaker можуть масштабувати горизонтально для обробки збільшення трафіку, додаючи більше випадків. І навпаки, у періоди низького попиту Sagemaker може масштабувати до нульового екземпляра, тим самим оптимізуючи використання ресурсів та зменшуючи витрати.

Ключові компоненти автоматичного масштабу

1. Балансування навантаження: кінцеві точки Sagemaker підтримують автоматичне балансування навантаження, що розподіляє вхідні запити в декількох екземплярах. Це гарантує, що жоден екземпляр не переповнений, підтримуючи послідовну продуктивність навіть у умовах високого навантаження.

2. Політика масштабування: Користувачі можуть визначати політику масштабування на основі конкретних показників, таких як використання процесора або затримка запиту. Ці політики визначають, коли можна масштабувати вгору або вниз. Для моделей DeepSeek-R1 загальні показники можуть включати затримку в кінці, пропускні ворони, час до першого маркера та затримку переодягання.

3. Типи одночасності та екземплярів: моделі DeepSeek-R1 можуть бути розгорнуті на різних типах екземплярів, кожна з яких має різні конфігурації GPU (наприклад, 1, 4 або 8 графічних процесорів). Вибір типу екземпляра впливає на продуктивність та масштабованість моделі. Вибираючи відповідні типи екземплярів та налаштування рівня одночасності, користувачі можуть оптимізувати чутливість та ефективність моделі.

Процес розгортання

Для розгортання моделей DeepSeek-R1 з автоматичним масштабуванням на Sagemaker, користувачі, як правило, виконують ці кроки:

-Вибір моделі: Виберіть відповідний варіант моделі DeepSeek-R1, наприклад, дистильовані версії (наприклад, DeepSeek-R1-Distill-Llama-8b), які пропонують баланс між продуктивністю та ефективністю.

- Конфігурація кінцевої точки: Налаштуйте кінцеву точку Sagemaker із вибраною моделлю. Це передбачає вказівку розташування моделі (наприклад, обняття концентратора обличчя або приватного відра S3), налаштування змінних середовищ та визначення типу екземпляра та початкового кількості екземплярів.

-Конфігурація автоматичного масштабування: Визначте політику автоматичного масштабування на основі бажаних показників (наприклад, використання процесора). Це гарантує, що кінцева точка динамічно масштабується у відповідь на зміни навантаження.

- Моніторинг та оптимізація: Постійно контролювати продуктивність кінцевої точки та регулювати політику масштабування, як потрібно для підтримки оптимальної продуктивності та економічної ефективності.

Переваги автоматичного масштабування для DeepSeek-R1

- Ефективність витрат: Зниженням у періоди низького попиту організації можуть значно зменшити витрати, пов'язані з запуском великих мовних моделей.
- Поліпшення чутливості: Автоматичне масштабування гарантує, що модель залишається чуйною навіть у умовах високого навантаження, покращуючи досвід користувачів.
- Спрощене керівництво: керована інфраструктура SageMaker спрощує процес розгортання та масштабування, що дозволяє розробникам зосередитись на розробці моделі та інтеграції додатків, а не на управлінні інфраструктурою.

Загалом, автоматичне масштабування для моделей DeepSeek-R1 на SageMaker забезпечує надійний та ефективний спосіб розгортання вдосконалених мовних моделей, гарантуючи, що вони можуть обробляти різні робочі навантаження, зберігаючи високу продуктивність та економічну ефективність.

Цитати:
[1] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distill-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[2] https://blogs.cisco.com/security/evaluating-securit
[3] https://repost.aws/questions?view=all&sort=Recent&page=eyj2ijoylcjuijoimxfkulbzbgfwotbz Qxfgakl5nzbxut09iiwidci6ilfjbxdxdlptbtrgzknhzkvprjlwsstza2hsmdgymutjwe1rdhkzse5snfk9in0
[4] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distill-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[5] https://www.byteplus.com/en/topic/383390
[6] https://repost.aws/questions?view=all&sort=Recent&page=eyj2ijoylcjuijoiqup4cuorys9pt29q aehntjh6ndy0dz09iiwidci6innvcunvrmfimfq0otluc1v5mkftawjpwmjvthlkofjmttrxd3yvyzrtcmc9in0
[7] https://www.oneclickitsolution.com/centerofexcellence/aiml/deploy-deepseek-r1-amazon-sagemaker-guide
[8] https://crossasyst.com/blog/deepseek-r1-on-aws-bedrock/
[9] https://community.aws/content/2z6dlaohx12yunoeas7qb5yth0q/leverage-deepseek-r1-on-aws?lang=en