O sistema NVIDIA DGX Station A100 fornece recursos de monitoramento abrangentes além da temperatura. Juntamente com o monitoramento de temperatura para GPUs, DIMMs de memória, CPU, cartão de exibição e placa -mãe, o sistema também rastreia vários outros componentes críticos e métricas de desempenho. Estes incluem:
- Velocidade do ventilador: o sistema monitora a velocidade dos ventiladores para garantir o fluxo de ar ideal e a eficiência de resfriamento, o que é crucial para manter o desempenho e impedir o superaquecimento.
- Consumo de energia: o monitoramento do consumo de energia ajuda a gerenciar o uso de energia e garantir que o sistema opere dentro dos limites de segurança. Isso é particularmente importante para um sistema projetado para ser usado em ambientes de escritório sem infraestrutura de energia especializada.
- Tensões do sistema: o monitoramento de tensão é essencial para manter a operação estável do sistema. Ajuda a detectar quaisquer flutuações de tensão que possam afetar o desempenho ou a longevidade do sistema.
Esses recursos de monitoramento são acessíveis por meio de uma interface de usuário baseada na Web e interfaces IPMI (Intelligent Platform Management Interface). A interface da Web fornece gráficos históricos e leituras atuais para essas métricas, permitindo análises detalhadas e gerenciamento do desempenho do sistema. Além disso, o sistema suporta recursos de gerenciamento remoto, incluindo serial over LAN (SOL) para acessar os recursos de console serial e teclado remoto, vídeo, mouse (KVM) para gerenciar o sistema à distância [1].
Citações:
[1] https://www.robuthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architecture-white-paper_published.pdf
[2] https://www.horizoniq.com/blog/nvidia-a100-specs/
[3] https://www.redbooks.ibm.com/redpapers/pdfs/redp5688.pdf
[4] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[5] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[6] https://www.pny.com/en-eu/file%20library/professional/datasheet/dgx/dgx_station_a100_dataheet_pny-web.pdf
[7] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[8] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[9] https://www.competa.com/dgxstation-a100.html
[10] https://nanoporetech.com/document/nvidia-dgx-station-a100-installation-and-use