Para configurar una unidad de distribución de energía inteligente (PDU) para el monitoreo de energía en la estación A100 NVIDIA DGX, siga estos pasos detallados:
1. Montaje de la PDU inteligente **
- Opciones de montaje: la PDU inteligente se puede montar vertical u horizontalmente en un estante. Para el montaje horizontal, seleccione los puntos de montaje del soporte apropiados para garantizar una profundidad adecuada dentro del estante. Adjunte los brackets L con tornillos e instale el gabinete en las ranuras del bastidor, permitiendo cierta adaptabilidad horizontal [3].- Montaje vertical: use el kit de montaje del botón provisto con la PDU inteligente. Distribuya los botones verticalmente y adjuntelos a la PDU según sea necesario. Asegúrese de que haya suficiente espacio libre en la parte superior para que los botones se monten en agujeros de llave [3].
2. Conectando a la fuente de alimentación **
- Conecte la PDU inteligente a una fuente de energía adecuada. Asegúrese de que la fuente de energía coincida con las especificaciones de la estación DGX A100 y la PDU inteligente en sí. Por lo general, la estación DGX A100 requiere una fuente de energía que puede suministrar 100V a AC de 240 V, con clasificaciones de corriente específicas [1] [7].3. Dispositivos de conexión **
- Conecte la estación DGX A100 a la PDU inteligente utilizando los cables de alimentación apropiados. Los sistemas DGX A100 utilizan cables de alimentación de bloqueo para garantizar la seguridad y el cumplimiento [1].- Asegúrese de que todos los dispositivos estén correctamente conectados y encendidos antes de continuar.
4. Sensores de conexión **
- Si su PDU inteligente admite sensores adicionales (por ejemplo, sensores de temperatura o humedad), conecte de acuerdo con las instrucciones del fabricante. Estos sensores pueden proporcionar datos ambientales valiosos para monitorear y mantener condiciones de funcionamiento óptimas [3].5. Configuración de la PDU inteligente **
- Iniciar sesión: acceda a la interfaz web de la PDU inteligente utilizando las credenciales de administrador predeterminadas (por ejemplo, admin/admin). Cambie estas credenciales para la seguridad [3].- Configuración de red: configure la configuración de red para habilitar el monitoreo remoto. Establezca la dirección IP, la máscara de subred, la puerta de enlace y los servidores DNS según sea necesario para su entorno de red [6].
- Cuentas de usuario: cree nuevas cuentas de usuario administrativas y elimine la cuenta de administrador predeterminada para obtener una seguridad mejorada [3].
- Nombres del sensor: si corresponde, configure los nombres para cualquier sensor conectado para identificar fácilmente las fuentes de datos [3].
6. Conexión a la red **
- Conecte la PDU inteligente a su red. Esto permite el acceso remoto para el monitoreo y la configuración. Asegúrese de que la conexión de red sea estable y segura [3].7. Consumo de energía de monitoreo **
- Use la interfaz web de Smart PDU o las herramientas IPMI para monitorear el consumo de energía. La PDU puede proporcionar datos históricos e en tiempo real sobre el uso de energía, lo cual es crucial para gestionar la eficiencia energética y la capacidad de planificación [4].- Para métricas detalladas de consumo de energía (por ejemplo, energía total desde el poder de encendido), es posible que necesite usar herramientas externas como Prometheus o InfluxDB para recopilar y analizar datos a lo largo del tiempo [4].
8. Integración con la estación DGX A100 **
- Asegúrese de que la estación DGX A100 esté conectada correctamente a la PDU inteligente y que todos los cables de alimentación estén bloqueados de forma segura en su lugar para evitar desconexiones accidentales [1].-Use herramientas como NVIDIA DCGM o `NVIDIA-SMI` para monitorear el consumo de energía específico de GPU si es necesario [4].
Siguiendo estos pasos, puede configurar efectivamente una PDU inteligente para el monitoreo de energía en su estación DGX A100, asegurando una gestión eficiente de energía y una confiabilidad del sistema.
Citas:
[1] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[2] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[3] https://cdn10.servertech.com/assets/documents/documents/137/original/301-0125-4_smart_pdu_revv.pdf?1493072227
[4] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[5] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/index.html
[6] https://www.ibm.com/docs/8335-gtg/p9hbf/p9hbf_configutility_isp.htm
[7] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html
[8] https://www.youtube.com/watch?v=i6nx74lqtca