Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 在DGX站A100的温度下,其他哪些组件也被监测


在DGX站A100的温度下,其他哪些组件也被监测


NVIDIA DGX站A100系统提供了超出温度的全面监视功能。除了对GPU,内存DIMM,CPU,显示卡和主板的温度监视之外,该系统还跟踪其他几个关键组件和性能指标。其中包括:

- 风扇速度:该系统可以监视风扇的速度,以确保最佳的气流和冷却效率,这对于保持性能和防止过热至关重要。
- 功耗:监视功耗有助于管理能源使用情况并确保系统在安全限制内运行。这对于旨在在没有专门电力基础架构的办公环境中使用的系统尤其重要。
- 系统电压:电压监视对于保持稳定的系统操作至关重要。它有助于检测任何可能影响系统性能或寿命的电压波动。

这些监视功能可通过基于Web的用户界面和IPMI(智能平台管理接口)接口访问。 Web界面为这些指标提供了历史图和当前读数,从而允许对系统性能进行详细的分析和管理。此外,该系统还支持远程管理功能,包括通过LAN(SOL)访问串行控制台和远程键盘,视频,鼠标(KVM)功能的序列化功能,可从远处管理系统[1]。

引用:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-system-achitection-architecture-white-phite-white-paper_paper_paper_paper_paubled.pdf
[2] https://www.horizo​​niq.com/blog/nvidia-a100-pecs/
[3] https://www.redbooks.ibm.com/redpapers/pdfs/redp5688.pdf
[4] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[5] https://docs.nvidia.com/dgx/pdf/dgx-station-a100--user-guide.pdf
[6] https://www.pny.com/en-eu/file%20library/professional/datasheet/dgx/dgx/dgx_station_a100_datasheet_pny-web.pdf
[7] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[8] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[9] https://www.compecta.com/dgxstation-a100.html
[10] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use