Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Como a estação DGX lida com vários usuários e acesso remoto


Como a estação DGX lida com vários usuários e acesso remoto


A estação NVIDIA DGX A100 foi projetada para lidar com eficientemente a vários usuários e o acesso remoto, tornando -a uma solução ideal para equipes e organizações de ciência de dados que exigem recursos centralizados de IA. Veja como ele gerencia essas capacidades:

lidando com vários usuários

- GPU multi-instância (MIG): A estação DGX A100 suporta MIG, o que permite que até 28 dispositivos GPU separados sejam alocados a usuários ou trabalhos individuais. Isso significa que vários usuários podem compartilhar a mesma GPU simultaneamente, sem afetar o desempenho do sistema. O MIG permite que cada instância da GPU tenha sua própria memória, cache e fluxo multiprocessador, garantindo a utilização eficiente de recursos [1] [2].

- Cargas de trabalho paralelas: o sistema é capaz de executar cargas de trabalho de treinamento, inferência e análise em paralelo. Isso permite que vários usuários trabalhem em diferentes projetos simultaneamente, alavancando todo o potencial dos quatro GPUs interconectados da NVIDIA A100 [1] [4].

- Compartilhamento de recursos: o MIG facilita o compartilhamento de recursos entre vários usuários, como estudantes ou membros de equipes de ciência de dados. Esse recurso é particularmente útil para avaliar vários trabalhos de inferência ou usar notebooks Jupyter para exploração do modelo [2].

Acesso e gerenciamento remotos

- Gerenciamento remoto: a estação DGX A100 oferece recursos robustos de gerenciamento remoto. Os usuários podem gerenciar o sistema a uma distância usando uma interface baseada na Web que fornece logs detalhados do sistema, leituras de sensores e monitoramento de desempenho. Isso inclui monitoramento de temperatura de GPUs, DIMMs de memória, CPU e outros componentes [2].

- IPMI e KVM: o sistema suporta IPMI (Intelligent Platform Management Interface) para monitoramento e gerenciamento automatizados. Além disso, oferece a funcionalidade KVM (teclado, vídeo, mouse), permitindo que os usuários acessem remotamente a exibição do sistema e gerenciem -a como se estivessem fisicamente presentes. Isso inclui recursos de armazenamento virtual para inicialização remota ou reinstalação do sistema [2].

- Protocolos seguros: protocolos seguros como o SSH podem ser configurados para permitir o acesso remoto à estação DGX de diferentes máquinas. Isso permite que os usuários gerenciem suas cargas de trabalho de IA com flexibilidade de qualquer lugar [5].

-Interface de gerenciamento do sistema NVIDIA: os usuários podem utilizar a ferramenta de linha de comando NVIDIA System Interface (NVIDIA-SMI) para monitorar e gerenciar o desempenho da GPU, incluindo porcentagens de uso e valores de temperatura [5].

No geral, a estação DGX A100 fornece uma solução poderosa e amigável para o escritório para vários usuários e acesso remoto, tornando-o adequado para uma variedade de ambientes, de escritórios corporativos a instalações de pesquisa.

Citações:
[1] https://www.competa.com/dgxstation-a100.html
[2] https://www.robuthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
[4] https://www.e4company.com/wp-content/uploads/dgx-family-print-dgx-station-a100-dataheet-us-partner.pdf
[5] https://www.fibermall.com/blog/nvidia-dgx-systems.htm
[6] https://opentools.ai/news/nvidia-unleases-the-future-with-personal-ai-supercomputers
[7] https://www.techpowerup.com/forums/threads/nvidia-announces-dgx-spark-and-dgx-station-personal-ai-computers.334300/
[8] https://www.serversimply.com/blog/how-to-connect-to-nvidia-dgx-cloud-advantages-configurações e-setup-guide