DGX站A100通过其底板管理控制器(BMC)跟踪和显示系统电压,该电压提供了全面的监视系统。该BMC提供了基于Web的用户界面,该界面允许用户安全访问和查看传感器读数,包括系统电压,以及其他关键系统指标,例如温度,风扇速度和功耗。这些功能也可以通过IPMI接口访问,可以在无需用户干预的情况下进行自动监视。
BMC接口包括这些指标的历史图和当前读数,提供了系统性能和健康的详细概述。此功能对于维持最佳系统条件至关重要,尤其是在稳定操作需要精确电压控制的环境中。此外,BMC支持远程管理功能,例如lan(Sol)和键盘,视频,鼠标(KVM)功能,允许远程系统管理和故障排除。
对于详细的跟踪和分析,用户可以将BMC数据与外部监视工具或数据库集成在一起,以随着时间的推移收集和分析历史数据。这种方法有助于识别系统电压的趋势和异常,这对于维持DGX A100站的可靠性和效率至关重要。
总之,DGX站A100的系统电压通过其BMC的Web界面和IPMI功能的组合来跟踪和显示,从而为有效的系统管理提供了实时和历史数据。
引用:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgx-station-a100-a100-user-guide/index.html
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
[4] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[5] https://www.pny.com/en-eu/file%20library/professional/datasheet/dgx/dgx/dgx_station_a100_datasheet_pny-web.pdf
[6] https://www.megware.com/fileadmin/user_upload/landingpage%20nvidia/nvidia-ampere-arkitecture-white-white-white-whitepaper.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-system-achitection-architecture-white-phite-white-paper_paper_paper_paper_paubled.pdf
[8] https://www.youtube.com/watch?v=I6NX74LQTCA
[9] https://docs.nvidia.com/dgx/dgx-station-a100-a100-user-guide/getting-started-station-a100.html
[10] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use