Моніторинг та оцінка ефективності DeepSeek-R1 на екземплярах GPU AWS

Моніторинг та оцінка продуктивності DeepSeek-R1 на екземплярах GPU AWS включає кілька кроків та інструментів. Ось детальний посібник про те, як це зробити ефективно:

Інструменти та показники моніторингу

Amazon CloudWatch

Amazon CloudWatch - це ключовий інструмент для моніторингу ресурсів AWS, включаючи екземпляри GPU. Він збирає та переробляє необроблені дані в читабельні показники в режимі реального часу. Для екземплярів GPU ви можете контролювати такі показники, як:
- Використання GPU: відсоток виділених GPU, які зараз використовуються.
- GPumeMoryutiLiMILIM: відсоток загальної пам'яті GPU у використанні.
- CPUUTILIMEL: Відсоток виділених обчислювальних одиниць EC2.
- Пам'ятник: відсоток пам'яті, що використовується в період вибірки.

Щоб увімкнути показники використання GPU, вам потрібно встановити агент CloudWatch у свої екземпляри та налаштувати його для збору метрики GPU NVIDIA [2] [8].

показники Nvidia

Окрім метрики CloudWatch, ви можете використовувати команду `nvidia-smi` для моніторингу продуктивності GPU в режимі реального часу. Ця команда надає детальну інформацію про використання GPU, використання пам'яті та температуру [5].

показники оцінки ефективності для DeepSeek-R1

Оцінюючи продуктивність моделей DeepSeek-R1, зосередьтеся на наступних показниках:
-Затримка на кінець: час між надсиланням запиту та отриманням відповіді.
- пропускна здатність (жетони в секунду): кількість жетонів, оброблених за секунду.
- Час до першого маркера: час, необхідний для створення першого маркера у відповіді.
- Захисна затримка: час між генеруванням кожного маркера у відповіді [1] [4].

сценарії для тестування

Щоб ефективно оцінити продуктивність DeepSeek-R1, розгляньте тестування різних сценаріїв:
- Довжина введення маркерів: тест з короткими (наприклад, 512 жетонів) та середньою (наприклад, 3072 жетонів) довжини входу, щоб оцінити, як модель обробляє різні вхідні розміри.
- Рівні паралельності: Оцініть ефективність за різними рівнями одночасності (наприклад, 1, 10) для оцінки масштабованості.
- Конфігурації обладнання: Використовуйте різні типи екземплярів GPU (наприклад, P4D, G5, G6) з різними чиселами GPU, щоб знайти оптимальну конфігурацію для вашого навантаження [1] [4].

Найкращі практики моніторингу та оцінки

- Використовуйте Amazon Sagemaker: Розгорніть моделі DeepSeek-R1 за допомогою SageMaker для використання його керованих можливостей інфраструктури та моніторингу продуктивності.
- Спеціальне тестування: Виконайте спеціальне тестування за допомогою конкретних наборів даних та випадків використання, щоб переконатися, що результати відповідають вашій програмі.
- Постійний моніторинг: регулярно контролювати показники продуктивності для виявлення вузьких місць та оптимізації використання ресурсів [4] [7].

Дотримуючись цих кроків та використовуючи правильні інструменти, ви можете ефективно контролювати та оцінити продуктивність DeepSeek-R1 на екземплярах GPU AWS.

Цитати:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distill-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[2] https://docs.aws.amazon.com/compute-optimizer/latest/ug/ec2-metrics-analyzed.html
[3] https://www.reddit.com/r/singularity/comments/1ik2zf6/you_can_now_train_your_own_deepseekr1_model_on/
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distill-models-on-amazon-sagemaker-using-a-large-model-inference-container/
[5] https://www.cloudoptimo.com/blog/aws-g6-gpu-instance-performance-use-case-and-cost-optimization/
.
[7] https://virtualizationreview.com/articles/2025/03/11/aws-first-cloud-giant-toffer-deepkeek-r1-as-asly-managed-serverless-model.aspx
[8] https://docs.aws.amazon.com/amazoncloudwatch/latest/monitoring/cloudwatch-agent-nvidia-gpu.html
[9] https://aws.amazon.com/about-aws/whats-new/2025/03/deepseek-r1-tly-managed-amazon-bedrock/