Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon DGX 스테이션 A100의 온도와 함께 다른 구성 요소가 모니터링되는 것


DGX 스테이션 A100의 온도와 함께 다른 구성 요소가 모니터링되는 것


NVIDIA DGX 스테이션 A100 시스템은 온도 이상의 포괄적 인 모니터링 기능을 제공합니다. GPU, Memory Dimms, CPU, Display Card 및 Motherboard의 온도 모니터링과 함께이 시스템은 여러 가지 중요한 구성 요소 및 성능 메트릭을 추적합니다. 여기에는 다음이 포함됩니다.

- 팬 속도 : 시스템은 팬의 속도를 모니터링하여 최적의 공기 흐름 및 냉각 효율을 보장하며, 이는 성능을 유지하고 과열을 방지하는 데 중요합니다.
- 전력 소비 : 전력 소비를 모니터링하면 에너지 사용을 관리하고 시스템이 안전한 한도 내에서 작동하도록하는 데 도움이됩니다. 이는 전문 전력 인프라가없는 사무실 환경에서 사용되도록 설계된 시스템에 특히 중요합니다.
- 시스템 전압 : 안정적인 시스템 작동을 유지하려면 전압 모니터링이 필수적입니다. 시스템 성능이나 수명에 영향을 줄 수있는 전압 변동을 감지하는 데 도움이됩니다.

이러한 모니터링 기능은 웹 기반 사용자 인터페이스 및 IPMI (지능형 플랫폼 관리 인터페이스) 인터페이스를 통해 액세스 할 수 있습니다. 웹 인터페이스는 이러한 메트릭에 대한 과거 그래프 및 현재 판독 값을 제공하여 시스템 성능에 대한 자세한 분석 및 관리가 가능합니다. 또한이 시스템은 직렬 콘솔 및 원격 키보드, 비디오, 마우스 (KVM) 기능에 액세스하기위한 SON (Serial Over LAN)을 포함한 원격 관리 기능을 지원합니다 [1].

인용 :
[1] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architection--paper_published.pdf
[2] https://www.horizoniq.com/blog/nvidia-a100-specs/
[3] https://www.redbooks.ibm.com/redpapers/pdfs/redp5688.pdf
[4] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[5] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[6] https://www.pny.com/en-eu/file%20library/professional/datasheet/dgx/dgx_station_a100_datasheet_pny-web.pdf
[7] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[8] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[9] https://www.compecta.com/dgxstation-a100.html
[10] https://nanoporetech.com/document/nvidia-dgx-station-installation-and-use