Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon DGX站如何处理多个用户和远程访问


DGX站如何处理多个用户和远程访问


NVIDIA DGX站A100旨在有效地处理多个用户和远程访问,这是数据科学团队和需要集中AI资源的组织的理想解决方案。这是管理这些功能的方式:

###处理多个用户

- 多现实GPU(MIG):DGX站A100支持MIG,它允许将多达28个单独的GPU设备分配给单个用户或工作。这意味着多个用户可以同时共享相同的GPU,而不会影响系统性能。 MIG使每个GPU实例都能具有自己的内存,缓存和流多处理器,从而确保有效的资源利用[1] [2]。

- 并行工作负载:系统能够并行运行培训,推理和分析工作负载。这使多个用户可以同时从事不同的项目,从而利用了四个相互连接的NVIDIA A100 GPU的全部潜力[1] [4]。

- 资源共享:MIG促进了多个用户(例如学生或数据科学团队成员)之间的资源共享。此功能对于评估多个推理作业或使用Jupyter笔记本进行模型探索特别有用[2]。

###远程访问和管理

- 远程管理:DGX站A100提供了强大的远程管理功能。用户可以使用基于Web的接口来管理系统,该接口提供详细的系统日志,传感器读数和性能监视。这包括对GPU,内存DIMM,CPU和其他组件的温度监测[2]。

-IPMI和KVM:系统支持IPMI(智能平台管理接口)用于自动监视和管理。此外,它还提供KVM(键盘,视频,鼠标)功能,使用户可以远程访问系统的显示并将其管理好,就好像他们在物理上一样。这包括用于远程引导或重新安装系统的虚拟存储功能[2]。

- 安全协议:可以设置SSH(例如SSH)的安全协议,以启用不同机器对DGX站的远程访问。这使用户可以从任何地方灵活地管理其AI工作负载[5]。

-NVIDIA系统管理接口:用户可以利用NVIDIA系统管理接口(NVIDIA-SMI)命令行工具来监视和管理GPU性能,包括使用百分比和温度值[5]。

总体而言,DGX站A100为多个用户和远程访问提供了功能强大的办公友好解决方案,使其适合从公司办公室到研究设施的各种环境。

引用:
[1] https://www.compecta.com/dgxstation-a100.html
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-system-acystem-architecture-white-white-white-paper_paper_paper_papered.pdf
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
[4] https://www.e4company.com/wp-content/uploads/dgx-family-print-dgx-station-a100-datasheet-us-partner.pdf
[5] https://www.fibermall.com/blog/nvidia-dgx-systems.htm
[6] https://opentools.ai/news/nvidia-unleashes-the-future-with-personal-ai-supercomputers
[7] https://www.techpowerup.com/forums/threads/nvidia-announces-dgx-spark-spark-and-dgx-station-personal-ai-computers.334300/
[8] https://www.serversimply.com/blog/how-to-connect-to-nvidia-dgx-cloud-advantages-configurations-and-setup-guide