Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon DGX 스테이션 A100에서 전력 모니터링을 설정하기위한 모범 사례는 무엇입니까?


DGX 스테이션 A100에서 전력 모니터링을 설정하기위한 모범 사례는 무엇입니까?


NVIDIA DGX 스테이션 A100에서 전력 모니터링 설정에는 정확하고 효율적인 에너지 소비 추적을 보장하기위한 몇 가지 모범 사례가 필요합니다. 자세한 단계와 고려 사항은 다음과 같습니다.

시스템의 전력 아키텍처 이해

DGX 스테이션 A100은 팬 속도, 전력 소비 및 시스템 전압 모니터링을 포함한 강력한 전력 관리 기능으로 설계되었습니다. 이러한 기능은 BMC (Baseboard Management Controller) 인터페이스를 통해 액세스 할 수 있으며 시스템 구성 요소를 모니터링하고 관리하기위한 웹 기반 사용자 인터페이스를 제공합니다 [7].

전력 모니터링을 위해 BMC 사용

1. BMC 액세스 : BMC를 사용하면 전력 소비 및 기타 시스템 메트릭을 모니터링 할 수 있습니다. 웹 인터페이스 또는 IPMI 명령을 통해 액세스 할 수 있습니다. 원격 액세스를 용이하게하기 위해 BMC의 정적 IP 주소를 구성했는지 확인하십시오 [3] [7].

2. IPMI 구성 :`ipmitool '과 같은 도구를 사용하여 BMC에서 센서 판독 값을 구성하고 검색하십시오. 여기에는 정기적으로 수집 할 수있는 전력 소비 데이터가 포함됩니다 [7].

시계열 데이터 수집 구현

시간이 지남에 따라 전력 소비를 모니터링하려면 정기적으로 데이터를 수집하여 시계열 데이터베이스에 저장해야합니다. 여기에서 할 수있는 방법 :

1. 전력 데이터 샘플링 : 스크립트 또는 도구를 사용하여 BMC 또는 기타 모니터링 인터페이스의 전력 소비 데이터를 샘플링하여 설정 간격 (예 : 1 분마다).

2. 시계열 데이터베이스 : 수집 된 데이터를 저장하기 위해 Prometheus 또는 InfluxDB와 같은 시계열 데이터베이스를 설정합니다. 이 데이터베이스는 대량의 시간 스탬프 데이터를 효율적으로 처리하는 데 최적화되었습니다 [1].

3. Grafana를 사용한 시각화 : Grafana를 사용하여 시간이 지남에 따라 전력 소비 데이터를 시각화하는 대시 보드를 만듭니다. 이를 통해 에너지 사용 패턴을 쉽게 모니터링하고 분석 할 수 있습니다 [1].

추가 고려 사항

- 원격 관리 : LAN (SOL) 및 KVM 기능을 포함한 BMC의 원격 관리 기능을 활용하여 물리적 액세스없이 시스템을 관리합니다 [7].
- 전원 공급 장치 관리 : 작동 중 전원 문제를 피하기 위해 전원 공급 장치 로커 스위치가 올바르게 관리되어 있는지 확인하십시오 [8].
- 안전 예방 조치 : 공급 된 전원 케이블을 항상 사용하고 과부하 보호가 부족하기 때문에 가정용 확장 케이블을 사용하지 마십시오 [8].

개별 구성 요소 모니터링

BMC는 시스템 레벨 전원 데이터를 제공하지만 GPU와 같은 개별 구성 요소를 모니터링 할 수도 있습니다. NVIDIA DCGM과 같은 도구는 GPU 성능 및 전력 소비를 관리하고 모니터링하는 데 도움이 될 수 있습니다 [1].

데이터 센터 통합

DGX 스테이션 A100이 더 큰 데이터 센터 설정의 일부인 경우 전원 모니터링을 데이터 센터 인프라와 통합하는 것을 고려하십시오. 여기에는 데이터 센터 팀과 협력하여 업스트림 전력 분배 장치 (PDU)의 전원 데이터에 액세스하는 것이 포함될 수 있습니다 [1].

인용 :
[1] https://www.reddit.com/r/hpc/comments/1125pw7/nvidia_dgxa100_energy_monitoring/
[2] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[3] https://www.manualslib.com/manual/2197924/nvidia-dgx-station-a100.html
[4] http://cdn.cnetcontent.com/2f/68/2f688a0-063f-4d76-94e4-8666b7619dfd.pdf
[5] https://docs.nvidia.com/dgx/pdf/dgxa100-user-guide.pdf
[6] https://docs.nvidia.com/dgx/pdf/best-practices-dgx.pdf
[7] https://www.robusthpc.com/wp-content/uploads/2021/11/nvidia-dgx-station-a100-system-architection--paper_published.pdf
[8] https://docs.nvidia.com/dgx/pdf/dgx-station-a100-user-guide.pdf
[9] https://docs.nvidia.com/dgx/dgx-station-a100-user-guide/getting-started-station-a100.html