La mise en place de la surveillance de l'énergie sur la station A100 NVIDIA DGX implique plusieurs meilleures pratiques pour assurer un suivi précis et efficace de la consommation d'énergie. Voici quelques étapes et considérations détaillées:
Comprendre l'architecture de puissance du système
La station DGX A100 est conçue avec des capacités de gestion de l'alimentation robustes, y compris la surveillance des vitesses du ventilateur, la consommation d'énergie et les tensions du système. Ces fonctionnalités sont accessibles via l'interface du contrôleur de gestion de la plinité (BMC), qui fournit une interface utilisateur basée sur le Web pour surveiller et gérer les composants du système [7].Utilisation de BMC pour la surveillance de l'alimentation
1. Accès à BMC: Le BMC vous permet de surveiller la consommation d'énergie et d'autres mesures système. Vous pouvez y accéder via une interface Web ou via des commandes IPMI. Assurez-vous que vous avez configuré une adresse IP statique pour le BMC pour faciliter l'accès à distance [3] [7].2. Configuration d'IPMI: utilisez des outils comme `ipmitool` pour configurer et récupérer des lectures de capteurs à partir du BMC. Cela comprend les données de consommation d'énergie, qui peuvent être collectées à intervalles réguliers [7].
Implémentation de la collecte de données sur les séries chronologiques
Pour surveiller la consommation d'énergie au fil du temps, vous devez collecter des données à intervalles réguliers et les stocker dans une base de données de séries chronologiques. Voici comment vous pouvez le faire:1. Données d'alimentation d'échantillonnage: utilisez des scripts ou des outils pour échantillonner les données de consommation d'énergie du BMC ou d'autres interfaces de surveillance à des intervalles de définition (par exemple, chaque minute).
2. Base de données de séries chronologiques: configurez une base de données de séries chronologiques comme Prometheus ou InfluxDB pour stocker les données collectées. Ces bases de données sont optimisées pour gérer efficacement de grandes quantités de données horodatrices [1].
3. Visualisation avec Grafana: utilisez Grafana pour créer des tableaux de bord qui visualisent les données de consommation d'énergie au fil du temps. Cela permet une surveillance et une analyse faciles des modèles de consommation d'énergie [1].
Considérations supplémentaires
- Gestion à distance: tirez parti des capacités de gestion à distance du BMC, y compris les fonctionnalités de série sur LAN (SOL) et KVM, pour gérer le système sans accès physique [7].- Gestion de l'alimentation: assurez-vous que le commutateur de bascule d'alimentation est correctement géré pour éviter les problèmes d'alimentation pendant le fonctionnement [8].
- Précautions de sécurité: utilisez toujours le câble d'alimentation fourni et évitez d'utiliser des câbles d'extension des ménages, car ils manquent de protection contre les surcharges [8].
Surveillance des composants individuels
Bien que le BMC fournisse des données d'alimentation au niveau du système, vous pouvez également surveiller les composants individuels comme les GPU. Des outils comme NVIDIA DCGM peuvent aider à gérer et à surveiller les performances du GPU et la consommation d'énergie [1].Intégration du centre de données
Si la station DGX A100 fait partie d'une configuration de centre de données plus grande, envisagez d'intégrer la surveillance de l'énergie à l'infrastructure du centre de données. Cela pourrait impliquer de travailler avec l'équipe du centre de données pour accéder aux données d'alimentation des unités de distribution d'alimentation en amont (PDU) [1].Citations:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_publish.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html