NVIDIA DGX站A100中的底板管理控制器(BMC)接口为各种系统组件提供了全面的温度监控。这包括监视GPU,内存DIMM,CPU,显示卡和主板的温度。 BMC允许系统管理员通过安全的基于Web的接口远程访问这些温度读数。该界面提供了有关系统传感器的详细信息,包括历史图和温度,风扇速度,功耗和系统电压的当前读数[1] [6]。
BMC还支持IPMI(智能平台管理接口)接口,该接口可以自动收集日志,统计和传感器读数,而无需用户干预。这允许对系统的热条件进行持续监视和管理,从而确保最佳性能并防止过热问题[1] [6]。
此外,BMC提供了通过LAN(SOL)接口的串行,使管理员可以访问系统的串行控制台,用于管理BIOS设置或已安装的操作系统。这种远程访问功能对于维持系统的健康和性能至关重要,尤其是在物理访问可能受到限制的环境中[1] [6]。
DGX站A100的基于创新的制冷系统的冷却系统通过有效处理较高的组件温度而无需维护,例如水位检查或补充,从而进一步增强了温度管理。该设计可确保系统在办公环境中安静,安全地运行,并保持所有组件的最佳温度[1]。
引用:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-system-achitection-architecture-white-phite-white-paper_paper_paper_paper_paubled.pdf
[2] https://www.advanced-integration.ae/wp-content/uploads/2022/08/dgx_station_a100_datasheet_ai-webonly.pdf
[3] http://cdn.cnetcontent.com/2f/68/68/2f68888a0-063f-4d76-94e4-8666666b7619dfdf.pdf.pdf
[4] https://docs.nvidia.com/dgx/dgx-station-a100-a100-user-guide/hardware-specifications-station-a100.html
[5] https://www.mdpi.com/1996-1073/14/2/376
[6] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/using-bmc.html
[7] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use
[8] https://mcomputers.cz/en/products-and-services/nvidia/dgx-systems/nvidia-dgx-station-a100/