Para configurar uma unidade de distribuição de energia inteligente (PDU) para monitoramento de energia na estação NVIDIA DGX A100, siga estas etapas detalhadas:
1. Montagem do PDU inteligente **
- Opções de montagem: o PDU inteligente pode ser montado vertical ou horizontalmente em um rack. Para montagem horizontal, selecione os pontos de montagem do suporte apropriados para garantir a profundidade adequada dentro do rack. Prenda os suportes L com parafusos e instale o gabinete nos slots de rack, permitindo alguma adaptabilidade horizontal [3].- Montagem vertical: use o kit de montagem do botão fornecido com a PDU inteligente. Distribua os botões verticalmente e anexe -os ao PDU, conforme necessário. Verifique se há uma folga suficiente na parte superior para os botões montarem em buracos [3].
2. Conectando -se à fonte de energia **
- Conecte o PDU inteligente a uma fonte de energia adequada. Verifique se a fonte de energia corresponde às especificações da estação DGX A100 e do próprio PDU inteligente. Normalmente, a estação DGX A100 requer uma fonte de energia que possa fornecer 100V a 240V CA, com classificações de corrente específicas [1] [7].3. Dispositivos de conexão **
- Conecte a estação DGX A100 ao PDU inteligente usando os cabos de energia apropriados. Os sistemas DGX A100 usam cabos de alimentação de travamento para garantir a segurança e a conformidade [1].- Verifique se todos os dispositivos estão adequadamente conectados e desligados antes de prosseguir.
4. Sensores de conexão **
- Se o seu PDU inteligente suportar sensores adicionais (por exemplo, sensores de temperatura ou umidade), conecte -os de acordo com as instruções do fabricante. Esses sensores podem fornecer dados ambientais valiosos para monitorar e manter as condições operacionais ideais [3].5. Configurando o Smart PDU **
- Login: acesse a interface da Web do Smart PDU usando as credenciais de administrador padrão (por exemplo, admin/admin). Altere essas credenciais para segurança [3].- Configurações de rede: definir as configurações de rede para ativar o monitoramento remoto. Defina o endereço IP, a máscara de sub -rede, os servidores Gateway e DNS, conforme necessário para o seu ambiente de rede [6].
- Contas de usuário: Crie novas contas de usuário administrativas e remova a conta de administrador padrão da segurança aprimorada [3].
- Nomes de sensores: se aplicável, configure nomes para qualquer sensor conectado para identificar facilmente fontes de dados [3].
6. Conectando -se à rede **
- Conecte o PDU inteligente à sua rede. Isso permite acesso remoto para monitoramento e configuração. Verifique se a conexão de rede é estável e segura [3].7. Monitorando o consumo de energia **
- Use a interface da Web do Smart PDU ou as ferramentas IPMI para monitorar o consumo de energia. A PDU pode fornecer dados históricos e em tempo real sobre o uso de energia, o que é crucial para gerenciar a eficiência energética e a capacidade de planejamento [4].- Para métricas detalhadas de consumo de energia (por exemplo, energia total desde a potência), pode ser necessário usar ferramentas externas como Prometheus ou InfluxDB para coletar e analisar dados ao longo do tempo [4].
8. Integrando com a estação DGX A100 **
- Certifique -se de que a estação DGX A100 esteja adequadamente conectada ao PDU inteligente e que todos os cabos de energia estejam travados com segurança para evitar desconexões acidentais [1].-Use ferramentas como o NVIDIA DCGM ou `nvidia-smi` para monitorar o consumo de energia específico da GPU, se necessário [4].
Seguindo essas etapas, você pode configurar efetivamente uma PDU inteligente para monitoramento de energia na sua estação DGX A100, garantindo gerenciamento de energia eficiente e confiabilidade do sistema.
Citações:
[1] http://cdn.cnetcontent.com/2f/68/2f6888a0-063f-4d76-94e4-8666b7619dfd.pdf
[2] https://www.robuthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[3] https://cdn10.servertech.com/assets/documents/documents/137/original/301-0125-4_smart_pdu_revv.pdf?1493072227
[4] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[5] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/index.html
[6] https://www.ibm.com/docs/8335-gtg/p9hbf/p9hbf_configuility_isp.htm
[7] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html
[8] https://www.youtube.com/watch?v=i6nx74lqtca