NVIDIA DGX 스테이션 A100에서 전력 모니터링 설정에는 정확하고 효율적인 에너지 소비 추적을 보장하기위한 몇 가지 모범 사례가 필요합니다. 자세한 단계와 고려 사항은 다음과 같습니다.
시스템의 전력 아키텍처 이해
DGX 스테이션 A100은 팬 속도, 전력 소비 및 시스템 전압 모니터링을 포함한 강력한 전력 관리 기능으로 설계되었습니다. 이러한 기능은 BMC (Baseboard Management Controller) 인터페이스를 통해 액세스 할 수 있으며 시스템 구성 요소를 모니터링하고 관리하기위한 웹 기반 사용자 인터페이스를 제공합니다 [7].전력 모니터링을 위해 BMC 사용
1. BMC 액세스 : BMC를 사용하면 전력 소비 및 기타 시스템 메트릭을 모니터링 할 수 있습니다. 웹 인터페이스 또는 IPMI 명령을 통해 액세스 할 수 있습니다. 원격 액세스를 용이하게하기 위해 BMC의 정적 IP 주소를 구성했는지 확인하십시오 [3] [7].2. IPMI 구성 :`ipmitool '과 같은 도구를 사용하여 BMC에서 센서 판독 값을 구성하고 검색하십시오. 여기에는 정기적으로 수집 할 수있는 전력 소비 데이터가 포함됩니다 [7].
시계열 데이터 수집 구현
시간이 지남에 따라 전력 소비를 모니터링하려면 정기적으로 데이터를 수집하여 시계열 데이터베이스에 저장해야합니다. 여기에서 할 수있는 방법 :1. 전력 데이터 샘플링 : 스크립트 또는 도구를 사용하여 BMC 또는 기타 모니터링 인터페이스의 전력 소비 데이터를 샘플링하여 설정 간격 (예 : 1 분마다).
2. 시계열 데이터베이스 : 수집 된 데이터를 저장하기 위해 Prometheus 또는 InfluxDB와 같은 시계열 데이터베이스를 설정합니다. 이 데이터베이스는 대량의 시간 스탬프 데이터를 효율적으로 처리하는 데 최적화되었습니다 [1].
3. Grafana를 사용한 시각화 : Grafana를 사용하여 시간이 지남에 따라 전력 소비 데이터를 시각화하는 대시 보드를 만듭니다. 이를 통해 에너지 사용 패턴을 쉽게 모니터링하고 분석 할 수 있습니다 [1].
추가 고려 사항
- 원격 관리 : LAN (SOL) 및 KVM 기능을 포함한 BMC의 원격 관리 기능을 활용하여 물리적 액세스없이 시스템을 관리합니다 [7].- 전원 공급 장치 관리 : 작동 중 전원 문제를 피하기 위해 전원 공급 장치 로커 스위치가 올바르게 관리되어 있는지 확인하십시오 [8].
- 안전 예방 조치 : 공급 된 전원 케이블을 항상 사용하고 과부하 보호가 부족하기 때문에 가정용 확장 케이블을 사용하지 마십시오 [8].
개별 구성 요소 모니터링
BMC는 시스템 레벨 전원 데이터를 제공하지만 GPU와 같은 개별 구성 요소를 모니터링 할 수도 있습니다. NVIDIA DCGM과 같은 도구는 GPU 성능 및 전력 소비를 관리하고 모니터링하는 데 도움이 될 수 있습니다 [1].데이터 센터 통합
DGX 스테이션 A100이 더 큰 데이터 센터 설정의 일부인 경우 전원 모니터링을 데이터 센터 인프라와 통합하는 것을 고려하십시오. 여기에는 데이터 센터 팀과 협력하여 업스트림 전력 분배 장치 (PDU)의 전원 데이터에 액세스하는 것이 포함될 수 있습니다 [1].인용 :
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f688a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architection--paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html