在NVIDIA DGX站A100上设置功率监控涉及几种最佳实践,以确保准确有效的能源消耗跟踪。以下是一些详细的步骤和注意事项:
##了解系统的功率体系结构
DGX站A100的设计具有强大的电源管理功能,包括监视风扇速度,功耗和系统电压。这些功能可通过底板管理控制器(BMC)接口访问,该界面提供了一个基于Web的用户界面,用于监视和管理系统组件[7]。
##利用BMC进行功率监控
1。访问BMC:BMC允许您监视功耗和其他系统指标。您可以通过Web界面或IPMI命令访问它。确保您已经为BMC配置了一个静态IP地址,以促进远程访问[3] [7]。
2.配置IPMI:使用``Ipmitool'''等工具从BMC配置和检索传感器读数。这包括功耗数据,可以定期收集[7]。
##实施时间序列数据收集
要监视随着时间的推移功耗,您需要定期收集数据并将其存储在时间序列数据库中。这是如何做到的:
1。采样功率数据:使用脚本或工具以设定的间隔(例如,每分钟)从BMC或其他监视界面采样功耗数据。
2。时间序列数据库:设置一个时间序列数据库,例如Prometheus或InfluxDB,以存储收集的数据。这些数据库被优化,可有效地处理大量时间stamp的数据[1]。
3。使用Grafana的可视化:使用Grafana创建仪表板,随着时间的流逝,可视化功耗数据。这可以轻松监视和分析能量使用模式[1]。
##其他注意事项
- 远程管理:利用BMC的远程管理功能(包括LAN(SOL)和KVM功能的串行)来管理系统无物理访问[7]。
- 电源管理:确保适当地管理电源摇杆开关,以避免操作期间的电源问题[8]。
- 安全预防措施:始终使用提供的电源线,并避免使用家用扩展电缆,因为它们缺乏过载保护[8]。
##监视单个组件
在BMC提供系统级功率数据时,您可能还需要监视GPU等单个组件。 NVIDIA DCGM等工具可以帮助管理和监视GPU性能和功耗[1]。
##数据中心集成
如果DGX站A100是较大数据中心设置的一部分,请考虑将功率监视与数据中心的基础架构集成。这可能涉及与数据中心团队合作以访问上游电源分销单元(PDU)[1]的电源数据。
引用:
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/68/2f6888a0-063f-4d76-94e4-86666666b7619dfdf.pdf.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-system-achitection-architecture-white-phite-white-paper_paper_paper_paper_paubled.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-a100--user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-a100-user-guide/getting-started-station-a100.html