Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon ¿Qué tipo de capacidades de monitoreo ofrece la estación DGX para administración remota?


¿Qué tipo de capacidades de monitoreo ofrece la estación DGX para administración remota?


La estación A100 NVIDIA DGX ofrece capacidades de monitoreo robustas para la gestión remota, mejorando su usabilidad y eficiencia en entornos informáticos de IA y de alto rendimiento. Estas son algunas de las características clave:

1. Controlador de gestión de la base (BMC): la estación DGX A100 incluye un BMC integrado, que proporciona una interfaz basada en la web para el acceso y el control remotos. Esta interfaz permite a los usuarios monitorear varios componentes del sistema, incluidos los sensores de temperatura para GPU, DIMM de memoria, CPU, tarjeta de pantalla y placa base. Además, rastrea las velocidades del ventilador, el consumo de energía y los voltajes del sistema, que muestra gráficos históricos y lecturas actuales [1] [4].

2. Interfaz IPMI: el BMC también admite IPMI (interfaz de administración de plataforma inteligente), lo que permite el software de monitoreo para recopilar automáticamente registros, estadísticas y lecturas de sensores sin intervención del usuario. IPMI incluye una interfaz de serie sobre LAN (SOL), lo que permite el acceso a la consola serie del sistema para administrar la configuración del BIOS o el sistema operativo instalado [1].

3. Capacidad remota de KVM: la interfaz basada en la web ofrece la funcionalidad remota de teclado, video, mouse (KVM). Esto permite a los usuarios ver la pantalla del sistema y administrarla desde la distancia. La función KVM también admite el almacenamiento virtual, lo que permite a los usuarios montar volúmenes remotos y realizar tareas como reinstalar el sistema o arrancar desde una imagen ISO [1].

4. Consolidación de la red: la estación DGX A100 puede consolidar conexiones de red utilizando la interfaz de banda lateral del controlador de red (NCSI), lo que permite que las conexiones de LAN de la administración remota y del sistema regular se administren a través de una sola caída de la red. Esto simplifica la configuración y reduce el número de puertos requeridos [1].

5. Gerente de la estación DGX: aunque no es específico del modelo A100 solo, NVIDIA ofrece herramientas como DGX Station Manager para administrar recursos en múltiples sistemas DGX. Esta herramienta permite a los usuarios monitorear la utilización de recursos, programar trabajos y administrar los permisos de los usuarios desde una interfaz centralizada [10].

En general, el DGX Station A100 proporciona capacidades integrales de monitoreo remoto y gestión, lo que lo hace adecuado para entornos de computación de IA locales y remotos.

Citas:
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[2] https://nvidianews.nvidia.com/news/nvidia-nounces-dgx-spark-and-dgx-station-personal-ai-computers
[3] https://docs.nvidia.com/dgx/pdf/dgx-station-user-guide.pdf
[4] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/security.html
[5] https://www.nvidia.com/en-us/products/workstations/dgx-station/
[6] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[7] https://www.globenewswire.com/news-release/2020/11/16/2127366/0/en/nvidia-dgx-station-a100-scopers-researchers-ai-data-center-inbox.html
[8] https://www.pcmag.com/news/what-is-nvidias-dgx-station-a-new-specialized-desktop-line-for-ai-work
[9] https://www.competa.com/dgxstation-a100.html
[10] https://www.serversimply.com/blog/how-to-connect-to-nvidia-dgx cloud--advantages-configurations-and-setup-guide