Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ¿Cómo maneja la estación DGX múltiples usuarios y el acceso remoto?


¿Cómo maneja la estación DGX múltiples usuarios y el acceso remoto?


La estación A100 NVIDIA DGX está diseñada para manejar eficientemente múltiples usuarios y acceso remoto, por lo que es una solución ideal para equipos y organizaciones de ciencias de datos que requieren recursos de IA centralizados. Así es como administra estas capacidades:

Manejo de varios usuarios

- GPU de múltiples instancias (MIG): la estación DGX A100 admite MIG, que permite que se asignen hasta 28 dispositivos de GPU separados a usuarios o trabajos individuales. Esto significa que varios usuarios pueden compartir la misma GPU simultáneamente sin afectar el rendimiento del sistema. MIG permite que cada instancia de GPU tenga su propia memoria, caché y transmisión multiprocesador, asegurando la utilización eficiente de recursos [1] [2].

- Cargas de trabajo paralelas: el sistema es capaz de ejecutar cargas de trabajo de capacitación, inferencia y análisis en paralelo. Esto permite que varios usuarios trabajen en diferentes proyectos simultáneamente, aprovechando todo el potencial de las cuatro GPU NVIDIA A100 interconectadas [1] [4].

- Compartir recursos: MIG facilita el intercambio de recursos entre múltiples usuarios, como estudiantes o miembros de equipos de ciencias de datos. Esta característica es particularmente útil para evaluar múltiples trabajos de inferencia o usar cuadernos Jupyter para la exploración del modelo [2].

Acceso y gestión remota

- Gestión remota: la estación DGX A100 ofrece capacidades robustas de administración remota. Los usuarios pueden administrar el sistema desde la distancia utilizando una interfaz basada en la web que proporciona registros detallados del sistema, lecturas de sensores y monitoreo de rendimiento. Esto incluye el monitoreo de la temperatura de GPU, DIMM de memoria, CPU y otros componentes [2].

- IPMI y KVM: el sistema admite IPMI (interfaz de administración de plataforma inteligente) para el monitoreo y administración automatizados. Además, ofrece funcionalidad KVM (teclado, video, mouse), lo que permite a los usuarios acceder de forma remota a la pantalla del sistema y administrarla como si estuvieran físicamente presentes. Esto incluye capacidades de almacenamiento virtual para arrancar o reinstalar el sistema [2].

- Protocolos seguros: se pueden configurar protocolos seguros como SSH para habilitar el acceso remoto a la estación DGX desde diferentes máquinas. Esto permite a los usuarios administrar sus cargas de trabajo de IA de manera flexible desde cualquier lugar [5].

-Interfaz de gestión del sistema NVIDIA: los usuarios pueden utilizar la herramienta de línea de comandos de la Interfaz de Gestión del Sistema NVIDIA (NVIDIA-SMI) para monitorear y administrar el rendimiento de GPU, incluidos los porcentajes de uso y los valores de temperatura [5].

En general, el DGX Station A100 proporciona una solución poderosa y amigable para la oficina para múltiples usuarios y acceso remoto, lo que lo hace adecuado para una variedad de entornos, desde oficinas corporativas hasta instalaciones de investigación.

Citas:
[1] https://www.competa.com/dgxstation-a100.html
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
[4] https://www.e4company.com/wp-content/uploads/dgx-family-print-dgx-station-a100-datasheet-us-partner.pdf
[5] https://www.fibermall.com/blog/nvidia-dgx-systems.htm
[6] https://opentools.ai/news/nvidia-unleashes-the-future-with-personal-ai-superComputers
[7] https://www.techpowerup.com/forums/threads/nvidia-nounces-dgx-park-and-dgx-station-personal-ai-computers.334300/
[8] https://www.serversimply.com/blog/how-to-connect-to-nvidia-dgxcloud--advantages-configurations-and-setup-guide