NVIDIA DGX站A100为远程管理提供了强大的监视功能,从而提高了其在AI和高性能计算环境中的可用性和效率。以下是一些关键特征:
1。底板管理控制器(BMC):DGX站A100包括一个嵌入式BMC,它为远程访问和控制提供了基于Web的接口。该接口允许用户监视各种系统组件,包括用于GPU,内存DIMMS,CPU,显示卡和主板的温度传感器。此外,它跟踪风扇速度,功耗和系统电压,显示历史图和当前读数[1] [4]。
2。IPMI接口:BMC还支持IPMI(智能平台管理接口),使监视软件能够自动收集日志,统计信息和传感器读数而无需用户干预。 IPMI包括通过LAN(SOL)接口的串行,允许访问系统的串行控制台,用于管理BIOS设置或已安装的操作系统[1]。
3。远程KVM功能:基于Web的接口提供远程键盘,视频,鼠标(KVM)功能。这使用户可以查看系统的显示并从远处进行管理。 KVM功能还支持虚拟存储,使用户能够安装远程量并执行诸如重新安装系统或从ISO映像启动[1]之类的任务。
4。网络合并:DGX站A100可以使用网络控制器侧带接口(NCSI)合并网络连接,从而可以通过单个网络下降来管理远程管理和常规系统LAN连接。这简化了设置并减少所需端口的数量[1]。
5。DGX电台管理器:虽然不专门针对A100型号,但NVIDIA提供了DGX Station Manager之类的工具,用于管理多个DGX系统的资源。此工具允许用户监视资源利用,安排作业并管理中央界界面的用户权限[10]。
总体而言,DGX站A100提供了全面的远程监视和管理功能,使其适合本地和远程AI计算环境。
引用:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-system-achitection-architecture-white-phite-white-paper_paper_paper_paper_paubled.pdf
[2] https://nvidianews.nvidia.com/news/nvidia-announces-dgx-spark-spark-and-dgx-station-personal-ai-computers
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
[4] https://docs.nvidia.com/dgx/dgx-station-a100-a100-user-guide/security.html
[5] https://www.nvidia.com/en-us/products/workstations/dgx-station/
[6] https://docs.nvidia.com/dgx/pdf/dgx-station-a100--user-guide.pdf
[7] https://www.globenewswire.com/news-release/2020/11/11/16/2127366/0/en/nvidia-dgx-station-a100-offers-crearchers-researchers-researchers-researchers-aii-ai-ai-data-centa-center-center-in-a-a-box.html
[8] https://www.pcmag.com/news/what-is-nvidias-dgx-station-a-new-pecialized-desktop-line-for-ai-work
[9] https://www.compecta.com/dgxstation-a100.html
[10] https://www.serversimply.com/blog/how-to-connect-to-nvidia-dgx-dgx-cloud-advantages-configurations-and-setup-guide