Le système NVIDIA DGX Station A100 offre des capacités de surveillance complètes au-delà de la température. Parallèlement à la surveillance de la température pour les GPU, les DIMM de mémoire, le CPU, la carte d'affichage et la carte mère, le système suit également plusieurs autres composants critiques et mesures de performance. Ceux-ci incluent:
- Vitesse du ventilateur: le système surveille la vitesse des ventilateurs pour assurer un flux d'air optimal et une efficacité de refroidissement, ce qui est crucial pour maintenir les performances et prévenir la surchauffe.
- Consommation d'énergie: la surveillance de la consommation d'énergie aide à gérer la consommation d'énergie et à s'assurer que le système fonctionne dans des limites sûres. Ceci est particulièrement important pour un système conçu pour être utilisé dans des environnements de bureau sans infrastructure d'alimentation spécialisée.
- Tensions du système: La surveillance de la tension est essentielle pour maintenir le fonctionnement stable du système. Il aide à détecter toute fluctuation de tension qui pourrait avoir un impact sur les performances ou la longévité du système.
Ces capacités de surveillance sont accessibles via une interface utilisateur basée sur le Web et des interfaces IPMI (interface de gestion de plate-forme intelligente). L'interface Web fournit des graphiques historiques et des lectures actuelles pour ces mesures, permettant une analyse détaillée et une gestion des performances du système. De plus, le système prend en charge les fonctionnalités de gestion à distance, notamment Serial Over LAN (SOL) pour accéder à la console série et au clavier distant, à la vidéo, à la souris (KVM) pour gérer le système à distance [1].
Citations:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_publish.pdf
[2] https://www.horizoniq.com/blog/nvidia-a100-specs/
[3] https://www.redbooks.ibm.com/redpapers/pdfs/redp5688.pdf
[4] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[5] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[6] https://www.pny.com/en-eu/file%20library/professional/datasheet/dgx/dgx_station_a100_datasheet_pny-web.pdf
[7] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[8] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[9] https://www.compecta.com/dgxstation-a100.html
[10] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use