Мониторинг и оценка производительности DeepSeek-R1 на экземплярах AWS-графических процессоров

Мониторинг и оценка производительности DeepSeek-R1 в экземплярах GPU AWS включает в себя несколько этапов и инструментов. Вот подробное руководство о том, как это сделать эффективно:

Инструменты мониторинга и метрики

Amazon Cloudwatch

Amazon CloudWatch - это ключевой инструмент для мониторинга ресурсов AWS, включая экземпляры графических процессоров. Он собирает и обрабатывает необработанные данные в читаемые, почти метрики в реальном времени. Для экземпляров GPU вы можете отслеживать метрики, такие как:
- Использование графических процессоров: процент выделенных графических процессоров в настоящее время используется.
- GPumemoryUtilization: процент общей использования памяти GPU.
- Процедура: процент выделенных вычислительных единиц EC2.
- Размещение памяти: процент памяти, используемой в течение периода выборки.

Чтобы включить метрики использования графических процессоров, вам необходимо установить агент CloudWatch на свои экземпляры и настроить его для сбора метрик GPU NVIDIA [2] [8].

Nvidia Metrics

В дополнение к метрикам CloudWatch вы можете использовать команду `nvidia-smi` для мониторинга производительности графического процессора в режиме реального времени. Эта команда предоставляет подробную информацию об использовании графических процессоров, использовании памяти и температуре [5].

Метрики оценки эффективности для DeepSeek-R1

При оценке производительности моделей DeepSeek-R1, сосредоточьтесь на следующих показателях:
-сквозная задержка: время между отправкой запроса и получением ответа.
- Пропускная способность (токены в секунду): количество токенов, обрабатываемых в секунду.
- Время до первого токена: время, необходимое для создания первого жетона в ответе.
- Задержка в междатке: время между генерированием каждого токена в ответе [1] [4].

Сценарии для тестирования

Чтобы эффективно оценить производительность DeepSeek-R1, рассмотрим тестирование различных сценариев:
- Длина входных токенов: тест с помощью коротких (например, 512 токенов) и средних (например, 3072 токенов) входных длины, чтобы оценить, как модель обрабатывает различные размеры входных размеров.
- Уровни параллелизма: оценить эффективность под различными уровнями параллелизма (например, 1, 10) для оценки масштабируемости.
- Аппаратные конфигурации: используйте различные типы экземпляров GPU (например, P4D, G5, G6) с различным количеством графических процессоров, чтобы найти оптимальную конфигурацию для вашей рабочей нагрузки [1] [4].

лучшие практики мониторинга и оценки

- Используйте Amazon SageMaker: развернуть модели DeepSeek-R1 с использованием SageMaker, чтобы использовать свои возможности управляемой инфраструктуры и мониторинга производительности.
- Пользовательское тестирование: выполните пользовательские тестирование с помощью ваших конкретных наборов данных и вариантов использования, чтобы убедиться, что результаты имеют отношение к вашему приложению.
- Непрерывный мониторинг: регулярно отслеживать метрики производительности для выявления узких мест и оптимизации использования ресурсов [4] [7].

Следуя этим этапам и используя правильные инструменты, вы можете эффективно отслеживать и оценить производительность DeepSeek-R1 в экземплярах GPU AWS.

Цитаты:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distilled-models-with-ghing-face-tgi-on-amazon-sagemaker-ai/
[2] https://docs.aws.amazon.com/compute-optimizer/latest/ug/ec2-metrics-analyzed.html
[3] https://www.reddit.com/r/singularity/comments/1ik2zf6/you_can_now_train_your_own_deepseekr1_model_on/
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distilled-models-on-amazon-sagemaker-using-a-large-model-infere-container/
[5] https://www.cloudoptimo.com/blog/aws-g6-gpu-instances-performance-use-cases-and-cost-optimization/
[6] https://github.com/aws-samples/amazon-sagemaker-generativeai/blob/main/llm-performance-evaluation/deepseek-r1-distilled/deepseek-r1-distelid-performance-evaluation-report.ipynb
[7] https://virtualizationreview.com/articles/2025/03/11/aws-first-cloud-giant-to-offer-deepseek-r1-as-manerated-serverless-model.aspx
[8] https://docs.aws.amazon.com/amazoncloudwatch/latest/monitoring/cloudwatch-agent-nvidia-gpu.html
[9] https://aws.amazon.com/about-aws/whats-new/2025/03/deepseek-r1-fly-managed-amazon-bedrock/