Автоматическая масштаба значительно повышает производительность моделей DeepSeek-R1 на Amazon SageMaker, динамически корректируя количество экземпляров и модели копий на основе спроса в реальном времени. Эта возможность гарантирует, что модель может эффективно обрабатывать колебания рабочей нагрузки, обеспечивая беспрепятственный пользовательский опыт при оптимизации использования ресурсов и затрат.
Ключевые преимущества автоматической масштабы для Deepseek-R1 на сагикере
1. Динамическое распределение ресурсов: автоматическое масштаб позволяет SageMaker предоставлять дополнительные экземпляры и развернуть больше копий модели при увеличении трафика, что обеспечивает модель, чтобы обрабатывать более высокий объем запросов без ущерба для производительности. И наоборот, по мере того, как трафик уменьшается, ненужные экземпляры удаляются, снижая затраты, избегая простых ресурсов [1] [2] [5].
2. Улучшенная отзывчивость: масштабируя, чтобы удовлетворить повышенный спрос, автоматическая масштаба помогает поддерживать низкую задержку и высокую пропускную способность. Это особенно важно для генеративных моделей искусственного интеллекта, таких как DeepSeek-R1, где отзывчивость напрямую влияет на пользовательский опыт [2] [8].
3. Эффективность затрат: автоматическая масштаба гарантирует, что ресурсы используются эффективно. В непиковые часы конечная точка может сократиться до нуля, оптимизируя использование ресурсов и эффективность затрат. Эта функция особенно полезна для приложений с переменными шаблонами трафика [1] [5].
4. Адаптивное масштабирование: Автоматические функции SageMaker предназначены для адаптации к конкретным потребностям генеративных моделей ИИ, таких как DeepSeek-R1. Используя метрики с высоким разрешением, такие как concurrentRequestspermodel и concurrentrequestspercopy, система может принимать точные решения масштабирования, гарантируя, что модель остается отзывчивой и экономически эффективной [2] [8].
5. Интеграция с балансировкой нагрузки: автоматическая масштаба работает без проблем с упругой балансировкой нагрузки, чтобы эффективно распределить входящие запросы по масштабированным ресурсам. Эта интеграция гарантирует, что ни один экземпляр не будет перегружен, сохраняя постоянную производительность во всех запросах [1] [8].
Развертывание и оценка эффективности
Модели DeepSeek-R1 могут быть развернуты на SageMaker с использованием вывода генерации текста обнимающего лица (TGI), который поддерживает автоматическое масштаб. Производительность этих моделей оценивается на основе таких показателей, как сквозная задержка, пропускная способность, время до первого токена и задержка в междатке. В то время как предоставленные оценки дают представление об относительной производительности, пользователям рекомендуется провести собственное тестирование для оптимизации производительности для конкретных вариантов использования и конфигураций аппаратного обеспечения [1] [4].
Таким образом, автоматическая масштаба на SageMaker повышает производительность DeepSeek-R1, обеспечивая динамическое распределение ресурсов, улучшая отзывчивость, оптимизацию затрат и адаптацию к изменяющимся требованиям, при этом сохраняя высококачественные возможности для моделей языка.
Цитаты:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-ghing-face-tgi-on-amazon-sagemaker-ai/
[2] https://randomtrees.com/blog/auto-scaling-for-генератива-ai-models-with-amazon-sagemaker/
[3] https://repost.aws/questions?view=all&sort=recent&page=eyj2ijoylcjuijoizgtmyktumnf0wuzn Y1DMAHKXCGRVUT09IIWIDCI6IKZRBITWVZI2M05ZVKLZBWGZT0VWZK5WVM5OVKIVOXBYN21TQ0PPDTHRWWC9IN0
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-infere-container/
[5] https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html
[6] https://www.byteplus.com/en/topic/382691
[7] https://campustechnology.com/articles/2025/03/14/awsfers-deepseek-r1-as-fly-manered-serverless-model-recommends-guardrails.aspx
[8] https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-infere-launches-faster-auto-caling-forgerative-ai-models/