Surveillance et évaluation des performances Deepseek-R1 sur les instances GPU AWS

La surveillance et l'évaluation des performances de Deepseek-R1 sur les instances du GPU AWS implique plusieurs étapes et outils. Voici un guide détaillé sur la façon de le faire efficacement:

outils de surveillance et mesures

Amazon CloudWatch

Amazon CloudWatch est un outil clé pour surveiller les ressources AWS, y compris les instances GPU. Il recueille et traite les données brutes en mesures lisibles et en temps réel. Pour les instances de GPU, vous pouvez surveiller les mesures telles que:
- Utilisation du GPU: le pourcentage de GPU alloués actuellement utilisés.
- gpumemoryulization: le pourcentage de la mémoire GPU totale utilisée.
- Cpuulisation: le pourcentage d'unités de calcul EC2 allouées utilisées.
- Memoryulisation: le pourcentage de mémoire utilisée pendant la période d'échantillonnage.

Pour activer les mesures d'utilisation du GPU, vous devez installer l'agent CloudWatch sur vos instances et le configurer pour collecter les métriques GPU NVIDIA [2] [8].

Nvidia Metrics

En plus des métriques CloudWatch, vous pouvez utiliser la commande `Nvidia-SMI` pour surveiller les performances du GPU en temps réel. Cette commande fournit des informations détaillées sur l'utilisation du GPU, l'utilisation de la mémoire et la température [5].

Mesures d'évaluation des performances pour Deepseek-R1

Lors de l'évaluation des performances des modèles Deepseek-R1, concentrez-vous sur les mesures suivantes:
- latence de bout en bout: l'heure entre l'envoi d'une demande et la réception de la réponse.
- débit (jetons par seconde): le nombre de jetons traités par seconde.
- Temps de premier jeton: le temps pris pour générer le premier jeton dans une réponse.
- latence inter-token: le temps entre la génération de chaque jeton dans une réponse [1] [4].

Scénarios de test

Pour évaluer efficacement les performances Deepseek-R1, envisagez de tester différents scénarios:
- Longueurs de jeton d'entrée: tester avec des longueurs d'entrée courtes (par exemple, 512 jetons) et moyens (par exemple, 3072 jetons) pour évaluer comment le modèle gère les tailles d'entrée variables.
- Niveaux de concurrence: évaluer les performances sous différents niveaux de concurrence (par exemple, 1, 10) pour évaluer l'évolutivité.
- Configurations matérielles: utilisez divers types d'instructions GPU (par exemple, P4D, G5, G6) avec différents nombres de GPU pour trouver la configuration optimale pour votre charge de travail [1] [4].

meilleures pratiques pour le suivi et l'évaluation

- Utilisez Amazon Sagemaker: Déployez les modèles Deepseek-R1 à l'aide de SageMaker pour tirer parti de ses capacités d'infrastructure et de surveillance des performances gérées.
- Test personnalisé: effectuez des tests personnalisés avec vos ensembles de données spécifiques et vos cas d'utilisation pour garantir que les résultats sont pertinents pour votre application.
- Surveillance continue: surveillez régulièrement les mesures de performances pour identifier les goulots d'étranglement et optimiser l'utilisation des ressources [4] [7].

En suivant ces étapes et en utilisant les bons outils, vous pouvez surveiller et évaluer efficacement les performances de Deepseek-R1 sur les instances GPU AWS.

Citations:
[1] https://aws.amazon.com/blogs/machine-learning/optimize-hosting-deepseek-r1-distillé-models-with-hugging-face-tgi-on-amazon-sagemaker-ai/
[2] https://docs.aws.amazon.com/compute-optimizer/latest/ug/ec2-metrics-analyzed.html
[3] https://www.reddit.com/r/singularity/comments/1ik2zf6/you_can_now_train_your_own_deepseekr1_model_on/
[4] https://aws.amazon.com/blogs/machine-learning/deploy-deepseek-r1-distill--models-on-amazon-sagemaker-using-a-large-model-inférence-Container/
[5] https://www.cloudoptimo.com/blog/aws-g6-gpu-instances-performance-use-cases-and-cost-optimization/
[6] https://github.com/aws-samples/amazon-sagemaker-generativeai/blob/main/llm-performance-evaluation/deepseek-r1-distilla/deepseek-r1-distilled-performance-evaluation-report.ipynb
[7] https://virtualizationreview.com/articles/2025/03/11/aws-first-cloud-giant-tofer-eepseek-r1-as-ly-managed-serverless-model.aspx
[8] https://docs.aws.amazon.com/amazoncloudwatch/latest/monitoring/cloudwatch-agent-nvidia-gpu.html
[9] https://aws.amazon.com/about-aws/whats-new/2025/03/deepseek-r1-ly-managed-amazon-bedrock/